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编写本 书的动 机源于 我们对 进一步 革新计 算机科 学核心 课程的 需求。 作为对 讨论了 计算科 
学人门 课程的  “Denning  报告” （Denning、 P.  J. 、 D.E.  Comer、 D.  Gries、 M.  C.  Mulder  A.  Tucker、 
J.  Turner  和  P.  R.  Young ,  “Computing  as  a  Discipline” ， Comm.  ACM 32:1 ， 9-23 页， 1989 年  1  月） 
的 回应， 全美 的很多 学校都 修订了 他们的 课程。 这篇 报告引 起人们 关注作 为相关 学科所 有本科 
课程之 基础的 三种工 作方法 或流程 —— 理论、 抽象和 设计。 最近， ACM/IEEE-CS  Joint  Curriculum 
Task  Force 的 Computing  Curricula  1991 报告 呼应了  “Denning 报 告”， 特别是 确定了 作为 计算科 
学 之本的 那些反 复岀现 的关键 概念： 概念 上和形 式上的 模型、 效率， 以及 抽象的 层次。 这两份 
报告 的主题 总结了 我们试 图在本 书中提 供给学 生们的 内容。 

本书 由斯坦 福大学 一门课 程的讲 义发展 而来， 该课 程名叫 “CS109: 计算 机科学 导论” 
( CS109：  Introduction  to  Computer  Science  ), 它 是一门 两学季 课程， 有很多 目标， 第一个 目标是 
为 计算机 科学专 业初学 者的进 一步学 习打下 坚实的 基础。 不过， 计 算科学 在大量 的理工 学科中 
变得 越来越 重要。 因此， 第二个 目标是 为那些 不会在 计算机 科学领 域进一 步深造 的学生 提供一 
些该 领域的 概念性 工具。 最后， 影响更 加广泛 的目标 是让所 有学生 了解程 序设计 概念， 并建立 
扎 实的计 算机科 学知识 基础。 

本书第 一版于 1992 年 问世， 是基于 Pascal 语 言的。 当 时之所 以选择 Pascal 作为示 例程序 
的 语言， 是因 为计算 机科学 科目的 Advanced  Placement® 考试 使用了  Pascal 语言， 而且 很多大 
学的 程序设 计导论 课程也 是使用 Pascal 语言。 我们 欣喜地 看到， 自从 1992 年起， C 语 言已渐 
趋成 为主流 入门程 序设计 语言， 因此 本书这 一版的 示例程 序都用 C 语言 写成。 本书强 调抽象 
和封 装的重 要性， 这 应该能 为读者 学习涉 及使用 C++ 的面 向对象 技术的 后续课 程提供 良好的 
基础。 

与此 同时， 我们 决定对 本书的 内容进 行两大 改进。 首先， 虽然 对机器 的体系 结构有 所了解 
有 利于激 发对度 量运行 时间的 兴趣， 但 我们发 现几乎 所有的 课程体 系都将 体系结 构单独 作为一 
门 课程， 所 以有关 这一主 题的章 节在这 里并不 实用。 其次， 很多计 算理论 的人门 课程会 强调组 
合和 概率， 所以我 们决定 增加这 方面的 内容， 并 将其单 独作为 一章。 

本 书涵盖 的主题 通常会 岀现在 离散数 学课程 以及大 二计算 机科学 的数据 结构课 程中。 我们 
有 意从计 算机用 户的实 际需要 着眼， 选 择了数 学方面 的基础 知识， 而不是 从数学 家的角 度去选 
择， 并尝 试把数 学基础 知识与 计算科 学有效 地结合 起来。 因此， 我 们希望 为学习 计算机 科学的 
人提供 一种比 学习程 序设计 课程、 离散数 学课程 或计算 机科学 附属学 科课程 更佳的 感觉。 相信 
随着 时间的 推移， 科学 家和工 程师都 将学习 与斯坦 福大学 这门课 程类似 的基础 课程。 这 样的计 
算 机科学 课程也 应该像 微积分 和物理 学的相 关课程 那样成 为标准 课程。 


①简称 AP， 指美国 高中开 设的具 有大学 水平的 课程， 即大 学预修 课程。 AP 考 试的成 绩可折 抵大学 学分， 并成为 
美国大 学的重 要录取 依据。 一一 编者注 
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阅 读前提 

从 大一新 生到研 究生都 可能选 修基于 本书的 课程。 这里 我们假 设这些 学生都 有着扎 实的程 
序设计 基础， 熟悉 本版中 用到的 ANSI  C 程 序设计 语言。 特 别要说 的是， 我们还 希望学 生们了 
解 C 语言 中的 结构， 诸 如递归 函数、 结 构体、 指针， 以 及与指 针和结 构体有 关的运 算符， 如点 
运 算符、 ->和&。 

计 算机科 学基础 课程相 关建议 

本 书以传 统计算 机科学 课程的 方式， 将数据 结构方 面的初 级课程 （也 就是 CS2 课程） 与离 
散数 学课程 结合在 一起。 我们 相信， 出于如 下两个 原因， 这些 主题的 整合是 十分必 要的。 

(1)  把数学 与计算 科学更 加紧密 地联系 起来， 有助于 激发对 数学的 兴趣。 

(2)  计算 科学与 数学是 相辅相 成的。 这样 的例子 包括， 第 2 章中 递归程 序设计 与数学 归纳法 
之间的 关系， 第 14 章， 逻辑学 中自由 / 约束 变量 的区别 与程序 设计语 言中变 量范围 之间的 关系。 
此外， 与启 发性程 序设计 作业有 关的建 议纵贯 全书。 

本书 的使用 方法有 很 多种。 

两 学季或 两学期 的课程 

斯坦福 大学的 CS109A-B 系列课 程就是 典型的 两学季 课程， 不过 它们的 安排都 相当紧 ，各 
自要在 10 周时间 内完成 40 个课时 的教学 。这 两门课 程完整 涵盖了 本书， 其中前 7 章是在 CS109A 
中介 绍的， 而第 8 至 14 章是在 CS109B 中介 绍的。 

一 学期的 CS2 类课程 

本 书也可 以用于 一学期 课程， 内容与 CS2 课程 的主题 类似。 本书 中的内 容确实 太多， 一个 
学期 自然讲 不完， 因 此我们 建议把 精力放 在以下 这些内 容上。 

(1)  递 归算法 与递归 程序：  2.7 节和 2.8 节。 

(2)  大 0 分析 和程序 的运行 时间： 第 3 章， 除了  3.11 节求 解递推 关系的 内容。 

(3)  树：  5.2 节〜 5.10 节。 

(4)  表： 第 6 章。 有 人可能 希望按 照更为 传统的 方式， 在介 绍树之 前先介 绍表。 我们 在这里 
把树视 作更为 基础的 概念， 不 过这样 调换次 序存在 一个小 问题， 就是第 6 章 讨论的 “词 典”抽 
象数 据类型 （ 以及 插入、 删除 和查找 操作） ，在 5.7 节中 就作为 与二叉 查找树 相关的 概念介 绍了。 

(5)  集合与 关系：  7.2 节〜 7.9 节以及 8.2 节〜 8.6 节， 强 调了表 示集合 和关系 的数据 结构。 

(6)  图 算法：  9.2 节〜 9.9 节。 

一 学期的 离散数 学课程 

对着 重于数 学基础 的一学 期课程 而言， 教 员可以 选择介 绍以下 内容。 

(1)  数学 归纳法 和递归 程序： 第 2 章。 

(2)  大 0 分析、 运 行时间 和递 推关系 ：  3.4 节〜 3. 1 1 节。 

(3)  组 合学：  4.2 节〜 4.8 节。 

(4)  离散 概率：  4.9 节〜 4.13 节。 

(5)  树 的数学 方面：  5_2 节〜 5.6 节。 


(6)  集合 的数学 方面:  7.2 节、 7.3 节、 7.7 节、 7.10 节和 7.11 节。 

(7)  关系 代数：  8.2 节、 8.7 节和 8.9 节。 

(8)  图 算法与 图论： 第 9 章。 

(9)  自动 机和正 则表达 式：第 10 章。 

(10)  上下 文无关 文法： 11.2 节〜 11.4 节。 

(11)  命 题逻辑 和谓词 逻辑： 第 12 章， 第 14 章。 

本 书特色 

为 了帮助 学生学 习这些 知识， 我 们还采 取了以 下辅助 措施。 

(1)  每章 开头都 有内容 简介， 最 后都有 小结， 用来突 出本章 要点。 

(2)  除了 在节标 题或小 节标题 中提到 过的概 念和定 义外， 一些重 要的概 念和定 义用楷 体突岀 
显 7K。 

(3)  附注栏 内容与 正文分 隔开， 这些 附注短 文有以 下用途 。 

□ 有 一些是 对正文 的详细 阐述， 或是 介绍程 序或算 法设计 的微妙 之处。 

□ 其他一 些是对 正文中 要点的 总结或 强调。 这类短 文包括 了对某 几类重 要证明 （ 比 如各种 
形式 的归纳 证明） 的 概述。 

□ 少 量用于 举例说 明一些 谬误， 而 且我们 希望将 其与正 文分开 可以消 除可能 出现的 误解。 
□ 少 量非常 简要地 介绍了 像不可 判定性 或计算 机发展 史这种 要花上 一整节 来介绍 的重要 
主题 。 

(4)  几乎每 节都有 习题， 在 全书分 布着逾 1000 道 习题。 其中 大概有 30% 标记 了一个 星号， 
表 示这些 习题比 那些不 带星号 的要多 费一番 思量。 还有约 10% 的习 题标记 了两个 星号， 它们是 
最 具挑战 性的。 

(5)  每一章 最后还 有参考 文献。 我们不 求面面 俱到， 只不 过推荐 一些让 读者能 了解与 该章主 
题 有关的 高阶教 科书， 以 及那些 最具历 史意义 的相关 论文。 

封 面简介 

使 用象征 图书内 容的漫 画或图 片作为 封面是 计算机 科学教 科书的 传统。 本书 用龟背 来表示 
计算机 科学的 世界， 也 还有其 他很多 象征符 号代表 着那些 更高阶 计算机 科学教 科书， 本 书内容 
正是 为这些 书打基 础的， 这 些符号 有下面 这些。 

泰迪賁 R.  Sethi ,  Programming  Languages:  Concepts  and  Constructs ， Addison- Wesley , 
Reading ,  Mass. ,  1989。 

棒球 运动员 0  J.  D.  Ullman ,  Principles  of  Database  and  Knowledge-Base  Systems ,  Computer 
Science  Press ,  New  York,  1988。 

圆柱。 J.  L.  Hennessy  禾口  D.  A.  Patterson ,  Computer  Architecture:  a  Quantitative  Approach , 
Morgan-Kaufmann ,  San  Mateo ,  Calif. ,  1990。 

龙。 A.  V.  Aho、 R.  Sethi  和  J.  D.  Ullman ,  Compiler  Design:  Principles,  Techniques,  and  Tools , 
Addison- Wesley,  Reading ,  Mass. ,  1986。 

三角龙 。 J.  L.  Peterson  和  A_  Silberschatz,  Operating  Systems  Concepts, 第二 版， Addison- Wesley , 
Reading ,  Mass. ,  1985。 
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第 1 章 

计算机 科学： 将抽象 机械化 


计算 机科学 是个新 领域， 不 过它几 乎已经 触及人 类工作 的每个 方面。 计 算机、 信息 系统、 
文本编 辑器、 电子 表格的 普及， 以 及使得 计算机 更便于 使用、 人们 生产效 率的精 彩应用 程序的 
激增， 都 显示出 计算机 科学对 社会的 影响。 该领 域有个 重要的 部分， 涉及 如何让 程序设 计更容 
易 以及让 软件更 可靠。 不过 从根本 上讲， 计算 机科学 是一门 抽象的 科学， 它为人 们思考 问题以 
及找到 适当的 机械化 技术解 决问题 而建立 模型。 

其他科 学是顺 其自然 地研究 宇宙。 例如， 物 理学家 的工作 就是理 解世界 是如何 运转的 ，而 
不 是去创 造一个 用物理 定律能 更好地 理解的 世界。 而 计算机 科学家 则必须 抽象现 实世界 中的问 
题， 使其既 可以为 计算机 用户所 理解， 又 可以在 计算机 内加以 表示和 操作。 

进 行抽象 的过程 有时很 简单。 例如， 我 们能熟 练地用 “命题 逻辑” 这 种抽象 方式， 为制造 
计算 机所使 用的电 子电路 的行为 建模。 通过 逻辑表 达式进 行的电 路建模 是不准 确的， 它 简化了 
或 者说是 抽象掉 了很多 细节， 比 如电子 流经电 路和门 所花的 时间。 然而， 命题逻 辑模型 已经足 
够 帮助我 们顺利 设计计 算机电 路了。 我们 将在第 12 章中更 多地探 讨命题 逻辑。 

再举个 例子， 假设 我们要 为各种 课程的 期末考 试排定 时间。 也就 是说， 我们 必须为 各门课 
程的考 试指定 时段， 只有在 没有学 生同时 选择某 两门课 程的前 提下， 才将 这两门 课程的 考试安 
排 在同一 时段。 如 何为这 一问题 建模， 起 初可能 不太好 确定。 一种 方式是 为每门 课程画 一个称 
为节点 （node) 的圆， 如果有 学生同 时选择 了两门 课程， 就 画一条 线来连 接相应 的两个 节点， 
这条线 称为边 （edge)。 图 1-1 表示了 5 门 课程可 能的关 系图， 这幅 图就是 课程冲 突图。 


图 1-1  5 门 课程的 课程冲 突图， 两门 课程之 间的边 表示至 少有一 个学生 同时选 择了这 
两 门课程 
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有了 课程冲 突图， 我们 就可以 通过在 图中反 复找出 并删除 “ 最大独 立集” 来 解决考 试安排 
问题。 独立 集是没 有边相 连接的 节点的 集合。 如果不 能再向 某独立 集添加 图中的 其他节 点了， 
那么就 说这个 独立集 是最大 独立集 。即， 一个图 中包含 节点数 目最多 的独立 集称为 最大独 立集。 
在说课 程时， 最大 独立集 就是指 没有共 同学生 的课程 的最大 集合。 在图 1-1 中， 彳经 济学， 英语， 
物理丨 就 是一个 最大独 立集。 最大独 立集中 的这些 课程被 指定到 第一个 时段。 

我们从 图中删 除第一 个最大 独立集 中的节 点以及 这些节 点附带 的边， 接着在 剩下的 课程中 
找岀 最大独 立集。 下一 个可选 的最大 独立集 是单元 素集彳 计算 机科学 1。 这 个最大 独立集 中的课 
程便被 分配到 第二个 时段。 

如此重 复找岀 并删除 最大独 立集， 直 到课程 冲突图 中不再 有任何 节点。 至此， 所有 课程都 
已经 被分配 到各时 段中。 本 例中， 在两 次迭代 之后， 课 程冲突 图中就 只剩下 数学节 点了， 而它 
就组 成了最 后一个 最大独 立集， 将被指 定到第 三个时 段中。 形 成的考 试排期 如下： 


时  段 

课 程考试 

1 

经 济学， 英语， 物理 

2 

计算 机科学 

3 

数学 

这一 算法不 见得会 将各门 需要考 试的课 程分布 在数目 尽可能 少的时 段中， 不 过它很 简单， 
而 且生成 的时间 安排中 所含的 时段数 目往往 接近最 小值。 利用第 9 章 介绍的 技术， 它也很 容易被 
设计成 计算机 程序。 

请 注意， 这 种方式 会将一 些可能 很重要 的问题 细节抽 象掉。 例如， 它 可能会 让某个 学生在 5 
个连续 的时段 内参加 5 科 考试。 也许我 们可以 建立这 样一个 模型， 对 某个学 生一次 可能连 续参加 
考试 的科目 数加以 限制， 不 过这样 一来， 建立 的模型 和考试 安排问 题的解 决方案 都可能 变得更 
加 复杂。 


抽象： 不 用担心 

读者可 能会对 “ 抽象” 这个 词有所 忌惮， 因 为我们 都有这 样一种 直觉： 抽象 的东西 都是难 
以理 解的。 例如， 人们 一般会 认为抽 象代数 （研 究群 、环， 诸如 此类） 要比 高中时 学的代 数难。 
然而， 我们 所使用 的抽象 意味着 简化， 是将现 实中复 杂而详 细的情 景替换 为解决 问题所 使用的 
可理解 模型。 也就 是说， 我们 将那些 对解决 问题而 言影响 甚微或 根本没 有影响 的细节 “抽 象掉” 
了， 从而建 立一个 让我们 能处理 问题实 质的模 型。 


通常情 况下， 找到好 的抽象 方式是 相当困 难的， 因为 计算机 能执行 的任务 有限， 执 行速度 
也 有限。 在计算 机科学 的初期 阶段， 一些 乐观主 义者认 为机器 人很快 就能像 《星球 大战》 中的 
C3P0 机 器人那 样神通 广大。 自那 时起， 我们 已经了 解到， 要让 计算机 （或机 器人） 具有 “ 智能” 
行为， 就 需要为 计算机 提供一 个本质 上跟人 类所支 配的世 界一样 详细的 模型， 不 仅要包 括事实 
(“ 萨莉 的电话 号码是 555-1234”）， 还要包 括原则 和关系 （“ 如果 抛出某 物体， 它通常 会向下 
坠落 ”)。 

我们在 “ 知识的 表示” 这 一问题 上已经 取得了 很大的 进步， 设计 出了一 些抽象 方式， 可用 
来 构建进 行某类 推理的 程序。 有向图 便是这 种抽象 的一个 例子， 它用 节点表 示实体 （ “猫” 或“松 
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毛 ”）， 用从一 个节点 指向另 一个节 点的箭 头 （ 称 为弧） 代表关 系 （ “松 毛是只 猫”， “ 猫是动 物”， 
“ 松毛的 牛奶碟 子归松 毛所有 ”）， 图 1-2 就 展示了 这样一 幅图。 


图 1-2 这幅 图用于 表示与 “ 松毛” 相关 的知识 

另一 种实用 的抽象 是形式 逻辑， 它 让我们 可以运 用推理 规则推 导事实 ，比如 “如果 义是只 
猫， F 是 Z 的母 亲， 那么 r 是只 猫”。 不过， 为 现实世 界或其 关键部 分建模 （或 者说 是对其 进行抽 
象） 的 过程， 却仍 是计算 机科学 所面临 的一大 挑战， 是近 期没法 彻底解 决的。 

1.1  本书主 要内容 

本书目 标 读者应 当具有 一定的 ANSI  C 语言 程序设 计实践 经验， 本书 旨 在为这 些读者 介绍计 
算机科 学的基 本概念 和重点 内容。 书 中强调 了如下 三种重 要的问 题解决 工具。 

(1)  数据 模型。 数据 特征的 抽象， 用 来描述 问题。 我们已 经提到 了两种 模型： 逻 辑和图 ，而 
在 本书中 还会看 到很多 其他的 模型。 

(2)  数据 结构。 用 来表示 数据模 型的编 程语言 结构。 例如， C 语 言提供 了内置 的抽象 ，比如 
结构和 指针， 使我们 能够构 建数据 结构， 表示像 图这类 的复杂 抽象。 

(3)  算法。 操 作用数 据模型 抽象、 数 据结构 等形式 表示的 数据， 从而获 取解决 方案的 技术。 

1.1.1 数 据模型 

我 们在两 种情况 下会提 到数据 模型。 像本 章开头 讨论的 图这样 的数据 模型， 是常用 于协助 
形成问 题解决 方案的 抽象。 我们 还会在 本书中 了解多 种这样 的数据 模型， 比如第 5 章介绍 的树、 
第 6 章介绍 的表、 第 7 章介绍 的集、 第 8 章 介绍的 关系、 第 9 章介绍 的图、 第 10 章介 绍的有 限自动 
机、 第 11 章 介绍的 语法， 以及第 12 章和第 14 章 介绍的 逻辑。 

数据 模型还 与编程 语言及 计算机 相关。 比如， C 语言的 数据模 型就包 含诸如 字符、 多种长 
度的整 数以及 浮点数 这类的 抽象。 C 语 言中的 整数和 浮点数 只是数 学意义 上整数 和实数 的近似 
值， 因 为计算 机所能 提供的 算术精 度是有 限的。 C 语言数 据模型 还包括 结构、 指 针和函 数这样 
的 类型， 我 们将在 1.4 节 中详细 介绍。 
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1.1.2 数 据结构 

当手头 问题的 数据模 型不能 直接用 编程语 言内置 的数据 模型表 示时， 我们就 必须使 用该语 
言所支 持的抽 象来表 示所需 的数据 模型。 为此， 我 们研究 了数据 结构， 将 编程语 言中没 有显式 
包含的 抽象， 以该 语言的 数据模 型表示 出来。 不同的 编程语 言可能 有着大 不相同 的数据 模型。 
例如， 与 C 语言 不同， Lisp 语言 直接支 持树， 而 Prolog 语 言则内 置了逻 辑数据 模型。 

1.1.3 算法 

算法是 对可机 械执行 的一系 列步骤 精准而 明确的 规范。 用来表 示算法 的可以 是任何 一种可 
被常人 理解的 语言， 不过 在计算 机科学 领域， 算 法多用 编程语 言正式 地表现 为计算 机程序 ，或 
用编程 语言混 合英语 语句的 非正式 风格来 表示。 大家 在学习 编程时 很可能 已经遇 到过一 些重要 
算法。 例如， 有不 少为数 组元素 排序的 算法， 就是按 照从小 到大的 顺序排 列数组 元素。 有一些 
诸如二 叉查找 (binary  searching  ) 之类 的查找 算法很 巧妙， 可以通 过反复 将某给 定元素 在数组 
中 可能出 现的部 分对半 划分， 迅 速地找 到这个 元素。 

这些 算法以 及其他 一些解 决常规 问题的 “招 数”， 是计算 机科学 家们在 设计程 序时会 用到的 
工具。 我 们将在 本书中 学习诸 多此类 技巧， 包 括重要 的排序 和查找 方法。 此外， 我们还 要了解 
使一种 算法优 于其他 算法的 因素。 很多 时候， 运 行时间 （ running  time  )， 或者说 算法处 理输入 
所花的 时间， 是算法 “ 质量” 的重要 一环， 我们 会在第 3 章中 讨论。 

算法的 其他方 面也很 重要， 特 别是简 易性。 理想情 况下， 算法应 该易于 理解， 并易 于转变 
成可 运转的 程序。 而且， 懂 得相应 知识的 人在阅 读了实 现该算 法的代 码后， 应该 能理解 由该算 
法转变 而来的 程序。 不 过快速 和简易 往往是 不能两 全的， 所以我 们必须 要明智 地选择 算法。 

1.1.4 基 本思路 

在 进一步 阅读本 书的过 程中， 我们将 遇到一 些重要 的统一 原则。 在 这里要 提以下 两点。 

(1)  设计 代数。 在底 层模型 得到充 分了解 的某些 领域， 我们可 以提出 一些表 示法， 以便表 
示和 评价某 些折衷 的设计 方案。 通过 这样的 认识， 我 们可以 提出一 些设计 理论以 构建出 设计良 
好的 系统。 命题 逻辑， 加上第 12 章 中的布 尔代数 这种相 关的表 示法， 就是 设计代 数的一 个好例 
子。 有 了它， 我们 可以为 数字计 算机中 的子系 统设计 高效的 电路。 其他设 计代数 的例子 还包括 
第 7 章中 的集 代数、 第 8 章中 的关系 代数， 以及第 10 章中 的正则 表达式 代数。 

(2)  递归。 作 为一种 可用来 定义概 念和解 决问题 的实用 技术， 递归特 别值得 一提。 我们会 
在第 2 章中详 细讨论 递归， 本书后 续内容 中也会 反复用 到它。 每 当我们 需要精 确地定 义对象 ，或 
需要 解决问 题时， 都 应该问 一问： “递 归解决 方案应 当是什 么样子 呢？” 递 归方案 的简易 和效率 
常 使其成 为最优 方法。 

1.2 本章主 要内容 

本章 接下来 的部分 将为计 算机科 学的学 习做好 铺垫， 要 介绍以 下主要 概念。 

□数 据模型 （1.3 节)。 

□  C 语言的 数据模 型 （ 1.4 节)。 

□ 软件 开发流 程的主 要步骤 （ 1.5 节)。 
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我 们会介 绍一些 例子， 讲讲抽 象和模 型出现 在计算 机系统 的几种 方式。 其中 特别提 到了编 
程语 言中的 模型、 特定系 统程序 （ 比 如操作 系统） 中的 模型， 以及计 算机所 使用电 路中的 模型。 
由于 软件是 当今计 算机系 统的重 要组成 部分， 因此我 们需要 理解软 件开发 流程、 模型和 算法扮 
演的 角色， 以及软 件开发 中计算 机科学 只能以 有限方 式解决 的那些 方面。 

在 1.6 节中会 介绍一 些常规 定义， 它们在 全书的 C 语言 程序 中都将 用到。 

1.3 数 据模型 

任何数 学概念 都可称 为数据 模型。 而 在计算 机科学 领域， 数据模 型通常 包含以 下两个 方面。 

(1)  对象可 以采用 的值。 例如， 很多 数据模 型包含 具有整 数值的 对象。 数据模 型的这 个方面 
是静 态的， 它告 诉我们 对象能 接受哪 些值。 编 程语言 数据模 型的这 一静态 部分通 常被称 为类型 
系统。 

(2)  数据的 运算。 例如， 我们常 常会对 整数执 行加法 这样的 运算。 模型的 这一方 面是动 态的， 
它告诉 我们 改变值 和创建 新值的 方式。 

1.3.1 编程 语言数 据模型 

每 种编程 语言都 有自己 的数据 模型， 这些 数据模 型互不 相同， 而且通 常有相 当大的 差异。 
多数 编程语 言处理 数据所 遵循的 基本原 则是， 每个 程序都 可以访 问我们 用于表 示存储 区域的 
“ 框”。 每个 框都具 有一个 类型， 比如 int 或 char。 框 中可以 存储类 型对应 的值， 通常将 可以存 
储到这 些框中 的值称 为数据 对象。 

我们 还要为 这些框 命名。 一般 来说， 框的 名称可 以是任 何指示 该框的 表述性 词语。 我们通 
常 会将框 的名称 视作该 程序的 变量， 不过 情况并 非完全 如此。 例如， 如果 X 是递 归函数 F 的局部 
变量， 那么 就可能 会有很 多名为 x 的框， 每个 x 都与对 F 的不同 调用相 关联。 这样 的话， 这 种框的 
真实名 称就是 x 与对 F 的某次 调用的 组合。 

C 语言中 的多数 数据类 型都是 我们熟 悉的： 整数、 浮 点数、 字符、 数组、 结构 和指针 。这 
些都是 静态的 概念。 

可以 对数据 进行的 操作包 括整数 和浮点 数的常 规算术 运算、 数 组或结 构元素 的存取 操作， 
以及 指针的 解引用 （也 就是 找到指 针所指 向的元 素)。 这 些运算 都只是 C 语言 数据 模型动 态部分 
的一 部分。 

在程序 设计课 程中， 我 们可能 会看到 C 语言 中不包 括的重 要数据 模型， 比 如表、 树 和图。 
用数 学语言 来讲， 表 就是可 以写成 (a15 这种 形式的 《 个元素 组成的 序列， 其中 q 是第一 
个 元素， a2 是第 二个， 以此 类推。 表的运 算包含 插人新 元素、 删除 元素， 以及 拼接表 （也 就是 
将一个 表追加 到另一 表的末 端)。 

♦ 示例 1.1 

在 C 语言 中， 整数 表可以 用链表 这种数 据结构 表示， 表的 元素被 存储在 链表的 节点中 。链 
表 及其节 点可用 如下类 型声明 定义。 

typedef  struct  CELL  *LIST ; 
struct  CELL  { 
int  element ; 
struct  LIST  next ; 


>； 
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该声明 定义了 有着两 个字段 的自引 用结构 CELL。 第一个 字段是 element ， 存放着 表中元 
素 的值， 而且其 类型为 int。 

每个 CELL 的 第二个 字段是 next, 存放 着指向 节点的 指针。 请 注意， LIST 类 型其实 是指向 
CELL 的 指针。 因此， CELL 类型的 结构可 以通过 它们的 next 字 段链接 起来， 构成 我们通 常所说 
的 链表， 如图 1-3 所示。 next 字 段既可 以被视 为指向 下一个 节点的 指针， 也可以 代表从 某节点 
起 的整段 链表。 同理， 整个链 表也可 以用指 向链表 第一个 单元的 LIST 类型 的指针 表示。 


图 1-3 表示表 (4,  a2,  ■■■ ,  a„) 的链表 


单元 是用长 方形表 示的， 其 左边部 分表示 元素， 右边 部分存 放指针 （表 示为 指向下 一个单 
元的箭 头)。 存 放指针 的方框 中的点 表示该 指针为 NULL®。 第 6 章 将更详 细地介 绍表。 


数据模 型与数 据结构 

尽管名 称类似 ，但 “ 表”和 “ 链表” 却 是非常 不同的 概念。 表是 种数学 抽象， 或者 说是数 
据 模型。 而链 表则是 种数据 结构， 是通 常用于 C 语言 及相似 语言中 的数据 结构， 用来表 示程序 
中的抽 象表。 而有些 编程语 言则不 需要用 数据结 构来表 示抽象 表。 例如， 表 (auA, … ，a„)SLisp 
语言 中可 以直接 表示为 [fli,  a2,"-  ,  an], 而在 Prolog 语言 中也可 以表示 为类似 形式。 


1.3.2 系统软 件的数 据模型 

数据模 型不仅 存在于 编程语 言中， 而 且存在 于操作 系统和 应用程 序中。 大家可 能熟悉 UNIX 
或 MS-DOS 这样 的操作 系统， 也可 能熟悉 Microsoft  Windows。 ® 操作 系统的 功能是 管理和 调度计 
算机的 资源。 像 UNIX 这样 的操作 系统， 其 数据模 型具有 文件、 目录 和进程 这样的 概念。 

(1)  数据 本身存 储在文 件中， 在 UNIX 系 统中， 文件 都是字 符串和 字符。 

(2)  文件被 组织成 目录， 目 录就是 文件和 （或） 其他 目录的 集合。 目录 和文件 形成了 树形结 
构， 而文件 处在树 叶的位 置®。 图 1-4 中 的树可 以表示 UNIX 操 作系统 的目录 结构。 目录是 用圆圈 
表 示的。 根目录 / 包含 名为 mnt、 usr、 bin 等的 目录。 目录 /usr 含 有目录 ann 和 bob, 而目录 
ann 下含有 3 个 文件： al、 a2 和 a3。 

(3)  进程是 指程序 的独立 执行。 进 程接受 流作为 输入， 并产生 流作为 输岀。 在 UNIX 系 统中， 
进程 可以通 过管道 连接， 让 一个进 程的输 出作为 下一个 进程的 输入。 这种 进程组 合可看 作有着 
自 己输 入输岀 的独立 进程。 


①  NULL 是标准 头文件 stdio.h 中定义 的符号 常量， 用来 表示未 指向任 何内容 的指针 的值。 本 书中的 NULL 指针都 
作此义 解释。 

② 如果 对操作 系统不 熟悉， 那 么可以 跳过下 面几个 段落。 不过大 多数读 者都应 该接触 过操作 系统， 可能只 是称呼 
不同。 例如， Macintosh  “ 系统” 就是一 种操作 系统， 只是 使用了 不同的 术语。 例如， 在 苹果用 语中， 目 录就被 
称为 “文件 夹”。 

③  不过， 目 录中的 “ 链接” 可能会 让某个 文件或 目录看 起来像 是几个 不同目 录的一 部分。 
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图 1  -4 具有 代表性 的 UNIX 目 录 / 文件 结构 


♦ 示例 1 .2 

想 想如下 UNIX 命 令行。 


be  |  word  I  speak 

符号 I 表示 管道， 该 操作使 符号左 边进程 的输出 成为符 号右边 进程的 输人。 程序 be 是桌面 
计 算器， 接 受算术 表达式 （例如 2+3) 作为 输入， 并生 成答案 5 作为 输岀。 程序 word 用来 将数字 
转换成 单词， 而 speak 则将单 词转换 成音素 序列， 接 着通过 扬声器 将语音 合成器 合成的 声音播 
放 岀来。 这三 个程序 通过管 道连接 起来， 使这条 UNIX 命令 行成为 了一个 进程， 并表 现为一 个“会 
说 话的” 桌面计 算器。 它 接受算 术表达 式作为 输入， 并产 生说岀 来的答 案作为 输出。 本 示例还 
可以 说明， 将 复杂的 任务处 理成多 个简单 功能的 组合， 实现起 来可能 会更加 简单。 

操 作系统 还有其 他许多 方面， 比如 它如何 控制数 据安全 以及与 用户的 互动。 不过， 即便是 
通 过这些 简单的 观察， 也应该 很容易 看出， 操 作系统 的数据 模型和 编程语 言的数 据模型 是相当 
不 同的。 

文本编 辑器中 有另一 种数据 模型。 文本编 辑器的 每种数 据模型 都结合 了文本 字符串 的表示 
和 对文本 的编辑 操作。 这 种数据 模型通 常会包 含行的 概念， 行和多 数文件 一样， 就是字 符串。 
不过， 与文 件不同 的是， 行可 能有着 与其相 关联的 行号。 行 还可能 被组织 成更大 的单元 （比如 
段 落）， 而 且对行 进行的 操作通 常适用 于行内 的任何 位置， 而 不会像 多数常 见的文 件操作 那样， 
只 是对前 部进行 操作。 一般 的文本 编辑器 会支持 “当 前”行 （光 标所 在的那 一行） 的概念 ，还 
可能 支持行 内当前 位置的 概念。 文本 编辑器 执行的 操作包 括对行 的多种 修改， 比 如在行 内删除 
或插入 字符、 删 除行， 以 及创建 新行。 在一般 的文本 编辑器 中还可 以在已 编辑文 件的行 中搜索 
特 定的字 符串。 

其实， 如果看 看其他 熟悉的 软件， 比如电 子表格 或视频 游戏， 就会 发现， 每 个调用 程序都 
必须遵 守被调 用程序 的数据 模型。 我们见 到的各 种数据 模型通 常彼此 间截然 不同， 无论 是用来 
表示 数据的 原语， 还是向 用户提 供的数 据操作 方式， 全都 不同。 而 且各数 据模型 都是通 过数据 
结构 和使用 它们的 程序， 用某 种编程 语言实 现的。 

1.3.3 电 路的数 据模型 

在本 书中我 们还会 看到计 算机电 路使用 的数据 模型。 这种 模型就 是命题 逻辑， 在计 算机设 
计中 是最实 用的。 计算 机是由 称为门 的基本 元件组 成的。 每 个门都 有着一 个或多 个输人 以及一 
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个 输出， 输 入或输 出的值 只能是 0 或 1。 门具 有一个 简单的 功能， 比如 AND 运算 （与 运算） ，就 
是如 果所有 输入为 1， 那么输 岀就是 1， 而如 果至少 有一个 输入为 0, 那么输 岀就是 0。 从 某个抽 
象层次 来讲， 计 算机设 计就是 选择如 何连接 门来执 行计算 机基本 运算的 过程。 当 然也存 在其他 
很 多与计 算机设 计相关 的抽象 层次。 

图 1-5 展 示了常 见的与 门符号 以及对 应的真 值表， 该表指 明了每 对输人 值搭配 经过该 门产生 
的 输出值 ®。 我们 将在第 12 章中 介绍真 值表， 并在第 13 章 中介绍 门及门 的互相 连接。 


♦ 示例 1 .3 

执行 C 语言赋 值语句 a=^+c， 计算 机会使 用加法 电路执 行加法 运算。 在计算 机中， 所有数 
字都 是以二 进制的 形式， 使用 0 和 1 这两 个数字 （叫作 二进制 数字， 或简 称位） 表 示的。 二进 
制加 法计算 也遵守 十进制 加法的 法则， 从右 端的数 字开始 相加， 如 果产生 进位， 就将 进位加 
到右 起第二 位上， 如果 这一位 上相加 的结果 还产生 进位， 就继续 加到右 起第三 位上， 以此类 
推。 

我 们可以 用几个 门来组 建一位 加法器 （one-bit adder) 电路， 如图 1-6 所示。 两个 输人位 x 和 
y,  一 个进位 输入位 c， 经过 相加， 形 成一个 和值位 z， 以 及进位 输出位 A 更精确 地讲， 如图 1-7 
所示， 如果 c、 x 和 J 中 有不少 于两个 的值为 1， 那么 ^ /的 值就是 1, 而如果 c、 ： c 和 y 中有 奇数个 （ 1 
个或 3 个） 的值为 1， 那么 z 的值 就是 U 进位输 出位后 面跟上 和值位 （即 办） 就形 成了一 个两位 
的二进 制数， 这就是 X、 /和^ 为 1 时的 总值。 在 这种情 况下， 这个一 位加法 器就完 成了输 入的相 
加 运算。 


y 


d 


z 

图 1-6  —位加 法器： &是 x+y  +  c 的和 


①请 注意， 若 我们将 1 视为 “ 真”， 将 0 视为 “ 假”， 则与 门执行 的是和 C 语言中 && 运算 符相同 的逻辑 运算。 
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x  y  c  d  z 

0  0  0  0  0 


1  1  1 


图 1-7  —位加 法器的 真值表 


行波 进位加 法算法 

在进行 十进制 数的加 法时， 我 们都使 用过行 波进位 算法。 拿 456+829 举例， 相加的 步骤应 
该如下 所示。 

1  0 

4  5  6  4  5  6  4  5  6 

8  2  9  8  2  9  8  2  9 

85  1285 

也就 是说， 第 一步， 我们会 将最右 边的位 相加， 6  +  9=15。 记下 5, 并 将进位 1 放到第 二列。 
第 二步， 我 们将进 位输入 1 与右 起第二 位的两 个数字 相加， 得到 1+5 +  2  =  8。 记下 8, 进位是 0。 
第 三步， 将进 位输入 0， 与 右起第 三位上 的数字 相加， 得到 0  +  4 +  8  =  12。 记下 2， 由于 我们已 
经计 算到了 最左边 的位， 因此 就不将 1 进位， 而是将 其作为 结果中 最左边 的一位 。 

二进制 行波进 位加法 也有着 相同的 原理。 只 不过， 在每一 位上， 进 位和要 相加的 “ 数字” 
要么是 0， 要么是 1。 因此 一位加 法器完 整地描 述了单 个数位 上的加 法表。 也就 是说， 如 果三个 
位都是 0， 那么 和就是 0， 就记下 0 以 及进位 0。 如 果三个 位中有 一个是 1， 那么 和就是 1， 就记下 
1 及进位 0。 如 果三个 位中有 两个是 1, 那么 和就是 2, 也 就是二 进制数 10, 就记下 0 以 及进位 1。 
如 果三个 位全是 1， 那么 和就是 3, 也 就是二 进制数 11， 就记下 1 及进位 1。 例如， 用行波 进位加 

法将 二进制 数 1 0 1 和 1 1 1 相加的 步骤如 下 所示。 

1 

1  0 


0  0  0  1  1  0  0 


很多计 算机用 32 位数字 来表示 整数。 所以加 法器电 路可由 32 个一 位加法 器组合 而成， 如图 
1-8 所示。 该电路 通常称 为行波 进位加 法器， 因为 进位是 从右向 左一次 一位行 进的。 要注意 ，最 
右侧 （最 低位） 一 位加法 器的进 位总是 0。 位序列 表 示一个 加数， 而乃 1^30 …: Fg 贝 U 表示另 
一个 加数。 和 就是办 31z3n 也就 是说， 和的 第一位 是最左 侧一位 加法器 的进位 输出， 而接下 
来的位 就是从 左往右 各加法 器的和 值位。 

如图 1-8 所 示的电 路是由 位数据 模型以 及门的 原始运 算形成 的算法 。不 过这不 是一种 特别好 
的 算法， 因为要 是不计 算完最 右侧那 一位， 就不 能计算 q 或右起 第二位 的进位 输岀。 不 计算完 
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右起第 二位， 就不 能计算 z2 或右起 第三位 的进位 输出， 诸如 此类。 因此， 该电路 花费的 时间就 
是加数 的位长 （在本 例中是 32) 乘 上每个 一位加 法器执 行运算 所需的 时间。 

X31  X30  X0 


Z31  Z30  Z0 


图  1  -8 行波 进位加 法器： dzMz30--  -z0=xnx3o ■-  ■Xo+y^iVio-yo 

有人 可能会 认为， 进位 在每个 一位加 法器间 “ 行进” 的 需求， 是 加法定 义中固 有的。 要是 
这 些读者 知道计 算机还 有快得 多的加 法计算 方式， 肯定会 大吃一 惊的。 我们 将在第 13 章 讨论电 
路的设 计时， 介 绍一种 改进过 的加法 算法。 

1.3.4  习题 

(1)  解 释数据 模型静 态方面 和动态 方面的 差异。 

(2)  描述自 己最喜 欢的视 频游戏 的数据 模型。 区 分其模 型的静 态方面 和动态 方面。 提示： 静态 部分不 
仅是指 计分牌 上不会 移动的 部分。 例如， 在 《吃 豆人》 游 戏里， 静态 部分不 仅包括 地图， 还包括 
“ 强化药 丸”和 “怪物 ”等。 

(3)  描 述自己 最喜欢 的文本 编辑器 的数据 模型。 

(4)  描述 电子表 格程序 的数据 模型。 

1.4  C 语言数 据模型 

在本 节中， 我 们将重 点介绍 C 语言所 使用数 据模型 的重要 部分。 以图 1-9 所示的 C 语言 程序 
为例， 该 程序使 用变量 num 来计 算其输 入中所 含的字 符数。 


#include  <stdio . h> 
main() 

{ 

int  num; 
num  =  0; 

while  (get char ()  ! =  EOF) 

++num;  /*  add  1  to  num  */ 
printf  (,,0/od\nn  ,  num) ; 


图 1-9 计 算输岀 所含字 符数的 C 语言 程序 

程序 的第一 行告诉 C 语言 预处 理器， 将标 准输入 / 输出 文件 stdio.h 包含 为源的 一部分 。该 
文 件含有 getchar 及 printf 函数的 定义， 以 及表示 文件结 束的符 号常量 EOF。 
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C 语 言程序 本身也 包含一 系列的 定义， 既 可以是 函数的 定义， 也 可以是 数据的 定义， 其中 
必 须要有 main 函数的 定义。 图 1-9 所 示程序 的函数 体中， 第一 条语句 声明了 int 类型 的变量 num 
(在 C 语言程 序中， 所 有变量 在使用 前都必 须先声 明）， 下一条 语句将 num 初 始化为 0, 接 下来的 
while 语句 则使用 库函数 get  char —次 读入 一个输 入字符 ，并 在每次 字 符读入 后递增 num 变量， 
直到没 有输入 字符可 供读人 为止。 输 人中的 特殊值 EOF 会 提示文 件已达 末尾。 printf 语 句则会 
将 num 的值 以十进 制整数 之后加 上换行 符的形 式打印 岀来。 

1.4.1  C 语言类 型系统 

首 先介绍 c 语言 数据模 型的静 态部分 —— 类型 系统， 它 描述了 数据可 能拥有 的值。 随后要 
讨论 c 语言数 据模型 的动态 部分， 也就 是可以 对数据 进行的 操作。 

在 C 语言 中， 有着类 型构成 的无限 集合， 其中的 任意元 素都可 以成为 与某个 特定变 量相关 
联的 类型。 这些 类型以 及构成 类型的 规则就 形成了 C 语言 的类型 系统。 类 型系统 包含整 数这样 
的基本 类型以 及一些 类型构 成规则 （type-formationmle)， 利 用这些 规则， 我们可 以用已 知的类 
型 逐步构 建更为 复杂的 类型。 C 语 言的基 本类型 包括： 

⑴ 字符 （char、 signed  char、 unsigned  char); 

(2)  整数 （int、 short  int、 long  int、 unsigned ); 

(3)  浮点数 （float、 double、 long  double  ); 

(4)  枚举 （ enum  )G 

整 数和浮 点数称 为算术 类型。 

类 型构成 规则假 设我们 已经有 了一些 类型， 可以 是基本 类型或 使用这 些规则 构建好 的其他 
类型。 以下是 C 语言 中的 一些类 型构成 规则。 

(1)  数组 类型。 可 以用以 下声明 构建一 个元素 类型为 扣勺 数组： 

TA[n] 

该语 句声明 了包含 《 个元素 的数组 A， 其中 每个元 素都是 _ 型的。 在 C 语言 中， 数组 下标是 
从 0 开 始的， 所以 数组的 第一个 元素是 A  [0] ， 而最 后一个 元素是 A  [«-1]。 数 组可由 字符、 算术 
类型、 指针、 结 构体、 共用 体或其 他数组 构成。 

(2)  结构体 类型。 在 C 语言 中， 结构体 是由称 为成员 或字段 的变量 构成的 分组。 在结构 体中， 
不同的 成员可 以具有 不同的 类型， 但 每个成 员都必 须具有 某一个 类型的 元素。 如果 乃、 r2、 …、 

是 类型， 而 从、 m2 、…、 是成员 名称， 那么如 下声明 

struct  S  { 

Tx  M1； 

Mj；， 

Tn  Mn\ 

} 

就定义 了标记 （即其 类型的 名称） 为 S 而且具 有《 个成 员的结 构体。 对 /=1、 2、 …、 《 来说， 
第 / 个成员 名称为 M,.， 且 其值为 7； •类 型。 示例 1.1 就 展示了 一个结 构体。 该结 构体的 标记是 CELL， 
并含 有两个 成员。 第一个 成员的 名称是 element ， 类型为 整数。 第二 个成员 名称为 next , 它的 
类型 是指向 某个同 类型结 构体的 指针。 

结构 体标记 51  是可 选的， 不 过它可 以在随 后的声 明中为 表示类 型提供 方便的 简写。 例如， 

声明 


12  第 1 章 计算机 科学： 将抽象 机械化 


struct  S  myRecord; 

定义了 变量 myRe  c  o  r  d 是一个 类型为 51 的结 构体。 

(3)  共用体 类型。 共用 体类型 允许一 个变量 在程序 执行的 不同时 期具有 不同的 类型。 

声明 

union { 

Tx  Mu 
Ti  My， 

Tn  Mn\ 

}  X； 

定义 了变量 X， 可以存 放类型 为乃、 r2 、…、 r„ 中任 意一种 的值。 成 员名称 m、 m2、 …、 
用 来指示 x 的值现 在应该 是哪种 类型。 也就 是说， x.M;. 就表明 x 的值是 类型为 的值。 

(4)  指针 类型。 C 语 言的独 特之处 在于对 指针的 依赖。 指 针类型 的变量 包含某 个存储 区域的 
地址。 可 以通过 指针， 间接 地访问 另一个 变量。 声明 

r*p; 

定义 了变量 P 是指 向某个 _ 型 变量的 指针。 用 p 来表 示指向 r 的类 型指针 的框， 框 p 的值就 
是个 指针。 我们 往往将 p 的值 表示 成一个 箭头， 而不 是将其 表示成 _ 型 的对象 本身， 如图 1-10 
所示。 真正 岀现在 p 框中 的是 _ 型 对象在 计算机 中存储 的地址 （或位 置)。 


考虑如 下声明 

int  x, 氺 p ; 

在 c 语言 中， 一元 运算符 & 是用 来获取 对象地 址的， 所 以声明 

P  =  &X； 

将 X 的地址 赋值给 P, 也就 是说， 这让 P 指向 X。 

用在 P 前面 的一元 运算符 * 会获取 P 指向 的框 的值， 所 以声明 
y  =  *p; 

会将框 P 指向 的内容 赋值给 y。 如果 y 是 int 类型的 变量， 那么 

p  =  &X； 

y  =  *p; 

就等 价于赋 值语句 


♦ 示例 1 .4 

C 语言的 typedef 结 构可用 来创建 类型名 称的同 义字。 
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看 一看图 1-11 中的 4 个 typedef 声明。 依照对 C 语言 中数据 的传统 看法， 类型 typel 是有 10 
个槽 （slot) 的 数组， 每 个槽中 都存放 着一个 整数， 如图 l-12a 所示。 同样， 类型 type2 的对象 
是指 向这类 数组的 指针， 如图 l-12b 所示。 而类型 type3 的 结构体 则被表 现为图 l-12c 中 所示的 
形式， 每个 字段都 有一个 槽与其 对应。 请 注意， 字 段名称 （例如 fieldl) 实际上 并未与 字段的 
值一起 出现。 最后， 数 组类型 type4 的对象 将会有 5 个槽， 每个槽 都存放 着类型 type3 的 对象， 
即如图 1-  12d 所 示的结 构体。 


typedef  int  Distance; 
typedef  int  typel  [10] ; 

typedef  typel  *type2 ; 

typedef  struct  { 
int  fieldl ; 
type2  f ield2; 

>  type3; 

typedef  type3  type4[5] ; 


图 1  - 1 1  一些 C 语言 typedef 声明 


(a)  (b) 


⑻ 


0 

1 

2 

3 

4 


(d) 


图 1-12 图 1-11 中类 型声明 的形象 化表示 
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类型、 名字、 变量和 标识符 

与数据 对象相 关的一 些术语 有不同 的含义 却又容 易混淆 。首先 ，类 型描 述了数 据对象 的“形 
状”。 在 C 语言 中， 可 以使用 typedef 结构为 已有的 类型定 义一个 新名字 rQ 

typedef  < 类型 描述符 >  T 

这里的 类型描 述符 是个表 达式， 告 诉我们 r 类型 的对 象 是什么 样子 。 

类型为 r 的 typedef 声 明实际 上并没 有创建 r 类型的 对象。 要创建 r 类型的 对象， 需 要使用 
如下 形式 的声明 

Tx； 

这里的 X 是个标 识符， 或 者说是 “变量 名”。 X 有可能 是静态 的 （ 不 是任何 函数的 局部变 量）， 
在 这种情 况下， 表示 X 的框 在程 序开始 时就创 建了。 如果 X 不是静 态的， 那 么它应 该是某 个函数 
F 的局部 变量。 在调用 F 时， 就会 创建一 个名为 “与 本次对 F 的调 用相 关联的 X” 的框。 更准确 
地说， 该 框的名 称还是 X， 不过只 在执行 本次对 F 的调 用时， 才使用 标识符 X 来表示 该框。 

正如 文中提 到的， 因为 F 可能 是递归 函数， 所以可 能存在 许多名 称涉及 标识符 x 的框。 甚至 
可 能会有 其他函 数使用 标识符 x 命名 自己 的某个 变量。 此外， 名字比 标识符 更具一 般性， 因为 
有 很多种 表达式 可以用 来为框 命名。 例如， 我们 提到过 *p 可以 是指针 p 指向 的某个 对象的 名字， 
而该 对象的 其他名 字也可 以是复 杂的表 达式， 比如 （*p)  .f  [2] 或 p->f  [2] 。 这 两个复 杂表达 
式是等 价的， 都表 示指针 p 指向 的结 构体中 f 字段 数组的 第二个 元素。 


1.4.2 函数 

函 数也具 有与之 关联的 类型， 即 使我们 没有像 处理程 序变量 那样， 将框或 “值” 与 函数相 
关联。 对任 意的一 列类型 乃、 r2 、…、 r„， 我们 可以定 义一个 函数， 具有 《 个类型 依次为 这些类 
型的参 数。 这一列 类型后 面带上 函数返 回的值 （返 回值） 的 类型， 就 是这个 函数的 “ 类型” 。如 
果函数 没有返 回值， 那 么该函 数就是 void 类 型的。 

一般情 况下， 可以应 用类型 构成规 则任意 地构建 类型， 不 过也存 在一些 限制。 比如， 不能 
构建 “ 函数数 组”， 不 过构建 由指向 函数的 指针构 成的数 组是可 以的。 在 c 语言中 构建类 型的完 
整规则 可以在 ansi 标准中 找到。 

1.4.3  C 语 言数据 模型中 的操作 

c 语言 数据模 型中的 数据操 作可分 为以下 三类。 

(1)  创 建或销 毁数据 对象的 操作。 

(2)  访问 或修改 数据对 象某些 部分的 操作。 

(3)  将若 干数据 对象的 值组合 起来， 为某个 数据对 象生成 新值的 操作。 

1.4.4 数 据对象 的创建 和销毁 

对于 数据的 创建， c 语 言提供 了几种 简陋的 机制。 在函 数被调 用时， 会创建 对应每 个局部 
参数 的框， 这 些框都 用来存 放参数 的值。 

另一 种数据 创建机 制是使 用程序 库例程 mallOC(n〉， 该例程 可以返 回一个 指针， 指向 《个 
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未使 用的连 续字符 位置， 这些 存储空 间可被 malloc 的调 用者用 来存储 数据。 然后 就可以 在这一 
存储区 域中创 建数据 对象。 

C 语言 有着类 似的方 法来销 毁数据 对象。 当 函数返 回时， 该函 数调用 的局部 参数将 不复存 
在。 例程 free 会释放 malloc 创建 的存储 空间。 特 别要说 的是， 调用 free  (p) 的效果 是释放 p 
指向 的存储 区域。 若使用 free 去销毁 不是通 过调用 malloc 创建的 对象， 会造成 灾难性 后果。 

1.4.5 数据 的访问 和修改 

C 语 言具有 访问对 象某些 部分的 机制。 可 以使用 a  [i] 访 问数组 a 的第汁 元素， 用 x.m 访问 
结构 x 的 成员 m ， 还可以 用 * p 访问指 针 p 指向 的对象 ^ 

在 C 语言 中， 修改 （或 者说 是写） 值主 要是由 赋值运 算符完 成的， 这 让我们 可以改 变对象 
的值。 

♦ 示例 1 .5 

如 果变量 a 的类型 是示例 1.4 中所 定义的 tyPe4 ， 那么 

Oa[0]  .field2)[3]  =  99; 

就把值 99 赋给了 数组 a 第一 个元素 所代表 的 结构体 中 f  i  e  1  d2 指向 的数 组的第 4 个 元素。 

1.4.6 数据 的组合 

c 语言 有着丰 富的运 算符， 可 用来对 值进行 操作和 组合。 主要运 算符包 括如下 这些。 

(1)  算术运 算符。 C 语言提 供了以 下几种 算术运 算符。 

(a)  用于整 数和浮 点数的 常规二 元算术 运算符 +、 -、 *、 /。 整 数除法 会取整 （4/3得1)。 

(b)  —元的 + 和-运 算符。 

(c)  取模 运算符 i%j 的 结果是 / 除 以/的 余数。 

(d)  递增 和递减 运算符 ++ 和 --， 适 用于单 个整数 变量反 复从自 身增加 或减去 1。 这 些运算 
符可以 岀现在 它们的 操作数 之前， 也可以 岀现在 它们的 操作数 之后， 取决于 我们是 
想在 改变变 量的值 之前还 是之后 计算该 表达式 的值。 

(2)  逻辑运 算符。 C 语 言中没 有布尔 类型， 它使用  “0”  来表示 逻辑值 “ 假”， 使用 “非 0”  表 
示 逻辑值 “ 真”。 ®C 语言 使用以 下几种 逻辑运 算符。 

(a)  && 表示 AND 运算。 例如， 表达式 x&&y 在两 个操作 数都非 0 的 情况下 会返回 1， 否则返 
回 0。 不过， 如果 x 的值为 0, 就 不考虑 y 的 值了。 

(b) |  | 表示 OR 运算。 表达式 x|  |¥在乂或¥非0的情况下会返回1， 否 则返回 0。 不过， 如果 
x 的值非 0， 就 不考虑 y 的值 了。 

(c)  一元的 否定运 算符!  x 在 x 非 0 时返回 0， 在 x=0 时返回 1 。 

(d)  条件 运算符 是三元 （三 参数） 运 算符， 用 一个问 号和一 个冒号 表示。 表达式 x?y:z 
在 乂为真 （ gib 为非 0) 的 情况下 会返回 y 的值， 在 x 为假 （ 即 x=0) 的 情况下 会返回 z 
的值。 

(3)  比较运 算符。 对整数 或浮点 数使用 6 种 关系比 较运算 符之一 （==、！=、<、>、<= 、和 
>= )， 如果 关系不 成立， 结果就 为 0， 否则 结果为 1。 


①我 们将反 复使用 TRUE 和 FALSE 作为 已定义 的常量 1 和 0， 来 表示布 尔值， 详见 1.6 节。 
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(4)  位 运算运 算符。 C 语言 提供了 一些实 用的位 逻辑运 算符， 将 整数当 作与它 们的二 进制形 
式相同 的位字 符串。 这些 运算符 包括， 用于按 位与的 &， 用于按 位或的 |， 用于 按位异 
或的  '  用于左 移位的  <<， 用于右 移位的  >>， 以及用 于左移 位的波 浪字符 （〜） 。 

(5)  赋值运 算符。 C 语言使 用= 作为 赋值运 算符。 除此 之外， 还允许 将乂=乂+¥; 这样 的表达 
式写为 x  +=  y; 这样 的简短 形式。 类似 的格式 也可以 用于其 他二元 算术运 算符。 

(6)  强制 转换运 算符。 强制 转换是 指将某 个类型 的值转 换成另 一个类 型的等 价值的 过程。 
例如， 如果 x 是浮点 数， 而 i 是整 数， 那么 x=i 会导致 i 的整 数值被 转换成 值相等 的浮点 
数。 在 这里， 强制 转换运 算符并 未显式 出现， 不过 C 语言编 译器会 推断从 整数到 浮点数 
的转 换是必 要的， 并 自动执 行所需 的转换 步骤。 

1.4.7  习题 

(1)  解释 c 语言 程序的 标识符 与名字 （用于 “框” 或数据 对象） 之间的 区别。 

(2)  举 例说岀 有多个 名字的 C 语言 数据 对象。 

(3)  如 果熟悉 C 语言 之外 的编程 语言， 描述 一下它 的类型 系统和 操作。 

1.5 算 法和程 序设计 

对数据 模型、 它们 的属性 及其适 当用途 的研究 是计算 机科学 的一大 核心， 而 与其同 等重要 
的 一大核 心便是 对算法 以及与 其相关 的数据 结构的 研究。 我 们需要 了解执 行常见 任务的 最佳方 
法， 而且需 要学习 设计优 秀算法 的主要 技术。 此外， 我们还 需要了 解如何 将数据 结构和 算法的 
使用融 人创建 实用程 序的过 程中。 数据 模型、 算法、 数据 结构， 以及 它们在 程序中 的实现 ，这 
些主 题相互 依存， 而且 每个主 题都会 在本书 中岀现 多次。 在本 节中， 我们 将粗略 地提到 一些与 
程序 的设计 和实现 有关的 知识。 

1.5.1 软件 的创建 

在程 序设计 课上， 当我 们拿到 编程问 题时， 可能 需要设 计解决 问题的 算法、 用某种 语言实 
现该 算法、 编 译程序 并用一 些示例 数据运 行它， 然 后提交 该程序 给老师 打分。 

而在 商业背 景中， 编 程环境 则完全 不同。 算法通 常只不 过是完 整程序 的一小 部分， 至少对 
那 些简单 平常到 信手可 拾的算 法来说 是这样 。而 程序通 常是涉 及硬件 和软件 的更大 系统的 组件。 
程 序及其 所嵌人 的完整 系统， 都 是由程 序员和 工程师 团队开 发的， 这样的 团队可 能有数 百人的 
规模。 

软件系 统的 开发 过程通 常要跨 越多个 阶段。 虽然 这些阶 段表面 上可能 和解决 课堂编 程任务 
所涉及 的步骤 有相似 之处， 但是 构建软 件系统 来解决 特定问 题的功 夫多数 并没有 花在编 程上。 
下面要 讲的是 一种理 想化的 场景。 

问题 的定义 和需求 说明。 在创建 软件系 统的过 程中， 最 难也是 最重要 的部分 是定义 真正的 
问题 所在并 指明解 决问题 所需的 条件。 通常， 问 题的定 义始于 对用户 需求的 分析， 不过 这些需 
求通常 是不准 确的， 而且 很难写 下来。 系统架 构师可 能要咨 询系统 未来的 用户， 并对需 求说明 
进行 迭代， 直到 详解者 （specifier, 拟定需 求说明 的人） 和用 户都对 定义和 解决手 头问题 的需求 
说明感 到满意 为止。 在需 求说明 阶段， 为最终 系统建 立简单 的原型 或模型 是有好 处的， 因为这 
样 可以深 人了解 系统的 行为和 可能的 用途。 数据 建模也 是问题 定义阶 段的一 个重要 工具。 
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设计。 一旦完 成需求 说明， 系统的 上层设 计就已 成形， 而 且主要 组成部 分也确 定了。 开发 
人员 会拟定 一份概 述上层 设计已 完成的 文档， 文 档中还 可能包 含系统 的性能 要求。 该阶 段还可 
能引人 有关某 些主要 组件的 更详细 的需求 说明。 高性 价比的 设计往 往需要 重用或 修改以 前构造 
的 组件， 诸如面 向对象 技术这 样的多 种软件 方法论 推动了 组件的 重用。 

实现。 一 旦敲定 设计， 就可 以开始 实现组 件了。 本书中 讨论的 很多算 法都能 在实现 新组件 
的过程 中派上 用场。 一旦完 成组件 的实现 工作， 就 要对其 进行一 系列的 测试， 以 确保它 能像需 
求说 明所说 的那样 工作。 

集成 和系统 测试。 当组 件得到 实现而 且已经 单独测 试过， 就应 该将整 个系统 组合起 来并进 
行 测试。 

安装 和现场 测试。 一 旦开发 人员觉 得系统 已经能 以令客 户满意 的状态 运转， 就可以 将系统 
安装 到客户 的办公 地点， 并进 行最终 的现场 测试。 

维护。 至此， 我 们可能 会认为 已经完 成了大 部分的 工作。 然而， 还需要 有维护 工作。 在很 
多情 况下， 维 护可能 要占据 超过一 半的系 统开发 成本。 维护可 能涉及 修改组 件来消 除不可 预见的 
副 作用、 修 正或提 高系统 性能， 或 增加新 功能等 目的。 因 为维护 是软件 系统设 计中很 重要的 部分， 
所以编 写的程 序务要 正确、 耐用、 高效、 可 修改， 并 且能从 一台计 算机移 植到另 一台计 算机。 

尽早 地发现 错误很 重要， 最好 是在问 题定义 阶段就 能发现 错误。 越到 后面的 阶段， 修复设 
计错 误或编 程错误 的成本 越高， 对 需求和 设计的 独立审 查有利 于减少 后续的 错误。 

1.5.2 编 程风格 

编写 他人能 够轻松 阅读和 修改的 程序， 便能够 显著减 轻维护 负担。 好 的编程 风格都 是练习 
的 结果， 建 议大家 一开始 就试着 编写方 便他人 理解的 程序。 没有什 么神奇 公式能 确保程 序的可 
读性， 不过还 是有一 些实用 经验可 介绍给 大家。 

(1)  将程 序分成 相关的 模块。 

(2)  为程序 排版， 使 其结构 清晰。 

(3)  编写易 于理解 的注释 来解释 程序。 清晰 准确地 描述底 层数据 模型、 用来表 示数据 模型的 
数 据结构 和每个 例程所 执行的 操作。 在 描述例 程时， 要 陈述对 其输入 作出的 假设， 并讲 清输出 
和输 入有什 么 关系。 

(4)  对例程 和变量 使用有 意义的 名称。 

(5)  尽 可能避 免使用 明确的 常数。 例如， 不要 用数字 7 表示小 矮人的 个数， 而 是要使 用诸如 
NumberOfDwarf s 这样 定义的 常量， 这样 一来， 如 果决定 再加上 一个小 矮人， 就 可以很 方便地 
将该 常量的 值改为 8。 

(6)  避 免使用 “ 全局变 量”， 即 不要为 整个程 序定义 变量， 除非 程序中 的大多 数例程 都要使 
用该 变量所 表示的 数据。 

另 一个编 程好习 惯就是 拥有成 套测试 输人， 可 以在编 程时对 每行代 码进行 测试。 每 当为程 
序增 加了新 功能， 就 可以运 行这套 测试， 以确 保新程 序在处 理这些 起作用 的输人 时能和 老程序 
行动 一致。 

1.6 本书 中用到 的一些 C 语言 约定 

在 说明与 c 语言 程序相 关的概 念时， 有一些 实用的 定义和 约定。 其中 一些是 在标准 头文件 
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stdio.h 中也 能找到 的常规 约定， 而另一 些则是 为本书 特别定 义的， 必须 在使用 它们的 C 语言程 
序中包 含这些 约定。 

(1)  标识符 NULL 是指针 的值， 可能在 任何出 现指针 的地方 出现， 但它 是个不 能指向 任何内 
容 的值。 因此， 岀现 在示例 1.1 链表 节点的 next 字 段中的 NULL, 可以 用来表 示链表 的结尾 。我 
们还 将看到 NULL 在其他 的数据 结构中 也有着 诸多类 似的用 途。 NULL 在 Stdio  .  h 头文件 中得到 
了 恰当的 定义。 

(2)  标识符 TRUE 和 FALSE 按 如下方 式定义 

#define  TRUE  1 

#def ine  FALSE  0 

因此， 在任 何需要 逻辑值 “真” 的情况 中都可 以使用 TRUE， 而在逻 辑值为 “假” 的 情况中 
都可 以使用 FALSE。 

(3)  类型 BOOLEAN 被 定义为 

typedef  int  BOOLEAN; 

在强调 要表示 的是表 达式的 逻辑值 而非数 值时， 就 会使用 BOOLEAN。 

(4)  标识符 EOF 是 getchar  ( ) 这样 的文件 读操作 函数在 无法继 续从文 件读岀 字节时 返回的 
值。 stdio  .h 文件为 EOF 定 义了一 个合适 的值。 

(5)  我 们还要 定义一 个宏， 用来生 成示例 1.1 中所用 节点的 声明。 图 1-13 就展示 了一种 可取的 
定义。 它声明 单元具 有两个 字段： element 字段的 类型是 由参数 Type 给 定的， 而 next 字段贝 lj 
指向 具有本 结构的 单元。 该宏提 供了两 项外部 定义： CellName 是 该类型 结构体 的名字 ，而 
ListName 则是 指向这 些单元 的指针 的类型 名称。 


#def ine  Def Cell (EltType ,  CellType ,  ListType) 

\ 

typedef  struct  CellType  *ListType; 

\ 

struct  CellType  { 

\ 

EltType  element ; 

\ 

ListType  next ; 

}  ^ 

\ 

图 1-13 用 来定义 表中单 元的宏 


♦ 示例 1.6 

通过 使用宏 

Def Cell (int,  CELL,  LIST) ; 

可以定 义示例 1 . 1 中那 种类型 的 单元。 

该宏 随后会 扩展为 

typedef  struct  CELL  *LIST ; 
struct  CELL  { 
int  element ; 

LIST  next ; 

} 

这样 一来， 我 们就可 以使用 CELL 作 为整数 单元的 类型， 并使用 LIST 作为指 向这些 单元的 
指针的 类型。 例如 

CELL  c; 

LIST  L; 
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定义 了单元 C， 以及指 向单元 的指针 L。 请 注意， 通常会 用指向 表第一 个单元 的指针 来表示 
一列 单元， 如果表 为空， 则用 NULL 来 表示。 

1.7 小结 

至此， 大家应 该已经 从本章 中了解 到以下 概念。 

□ 数据 模型、 数据结 构和算 法是怎 样用来 解决问 题的。 

□ 数 据模型 “表” 和数 据结构 “ 链表” 之间的 差别。 

□无论 是编程 语言、 操作 系统， 还 是应用 程序， 每种软 件系统 中都存 在着某 种类型 的数据 
模型。 

□ c 语言所 支持数 据模型 的关键 要素。 

□ 大 型软件 系统开 发过程 的主要 步骤。 

1.8 参 考文献 
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迭代、 归纳 和递归 


计算机 的威力 源自其 反复执 行同一 任务或 同一任 务不同 版本的 能力。 在计算 领域， 迭代这 
一主题 会以多 种形式 岀现。 数据模 型中的 很多概 念 （ 比 如表） 都是某 种形式 的重复 ，比 如“表 
要么 为空， 要 么由一 个元素 接一个 元素， 再 接一个 元素， 如此 往复而 成”。 使用 迭代， 程 序和算 
法 可以在 不需要 单独指 定大量 相似步 骤的情 况下， 执行 重复性 的任务 ，如 “ 执行下 一步骤 1000 
次”。 编 程语言 使用像 C 语言 中的 while 语句和 for 语 句那样 的循环 结构， 来实 现迭代 算法。 

与重复 密切相 关的是 递归， 在 递归技 术中， 概 念是直 接或间 接由其 自身定 义的。 例如 ，我 
们可 以通过 “ 表要么 为空， 要 么是一 个元素 后面再 跟上一 个表” 这 样的描 述来定 义表。 很多编 
程语言 都支持 递归。 在 C 语言 中， 函数 F 是可以 调用自 身的， 既 可以从 F 的函 数体 中直接 调用自 
己， 也可 以通过 一连串 的函数 调用， 最终间 接调用 F。 另 一个重 要思想 —— 归纳， 是与 “ 递归” 
密切相 关的， 而且 常用于 数学证 明中。 

迭代、 归纳和 递归都 是基本 概念， 会以 多种形 式岀现 在数据 模型、 数据 结构和 算法中 。下 
面介绍 了 一些使 用这些 概念的 例子， 每项内 容都会 在本书 中详细 介绍。 

(1)  迭代 技术。 反复执 行一系 列操作 的最简 单方法 就是使 用迭代 结构， 比如 C 语言 中的 for 语句。 

(2)  递 归程序 设计。 C 语言 及其他 众多语 言都允 许函数 递归， 即 函数可 以直接 或间接 地调用 
自己。 对新手 程序员 来说， 编写迭 代程序 通常比 写递归 程序更 安全， 不过 本书的 一个重 要目标 
就是 让读者 习惯在 适当的 时候用 递归的 方式来 思考和 编程。 递 归程序 更易于 编写、 分析和 理解。 


符号： 求和符 号和求 积符号 

加大 字号的 大写希 腊字母 S 通常用 来表示 求和， 如 y n  i 。 这个 特殊的 表达式 表示从 1到《 

i=\ 

这《 个整数 的和， 也就是 1+2+3+ … +«。 更 加一般 化的情 况是， 我 们可以 对任何 具有求 和指标 
( summation  index  )  i 的函数 f  (/) 求和。 （ 当然， 这个 指标也 可能是 / 以外的 一 些符 号。） 表达式 
u ⑺ 就表示 

/⑷ +  /0  +  1)  +  /0  +  2)  +  —  +  /(的 

例如， 就表示 4 +  9  +  16+ … +m2 的和， 这里 的函数 / 就是 “求平 方”， 而 我们用 
了指标 y 来代替 /。 

作为 特例， 如果 △<«， 那么 表达式 y]b 一 f(i) 不含 任何项 , 当然， 其值 也就是 0 了。 如果办 = 
a, 那 么表达 式只有 f  =  a 时的那 一项。 因此， ⑺的 值就是 /⑻。 
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用于 求积的 类似符 号是个 大号的 大写希 腊字母 n 。 表 达式； Q^/(o 就表示 

/(«)  x/(a  +  l)x/(a  +  2)x  — x  f{b) 

的积， 如果 6<a， 那么该 表达式 的值为 1。 


(3)  归纳 证明。 “归纳 证明” 是用 来表明 命题为 真的一 项重要 技术。 从 2.3 节 开始， 我 们将广 
泛介 绍归纳 证明。 下 面是归 纳证明 最简单 的一种 形式。 我们有 与变量 〃相关 的命题 51  ⑻， 希望证 
明咖) 为真。 要证明 咖)， 首先 要提供 依据， 也就是 《 为某个 值时的 命题外 0。 例如， 我们 可以令 
n  =  0, 并证明 命题况 0)。 接着， 我们 必须对 归纳步 骤加以 证明， 我们要 证明， 对 应参数 某个值 
的命题 A 是由对 应参数 前一个 值的相 同命题 51  得 出的， 也就 是说， 对所有 的《多0, 可从况 《)得 
到咖 +1)。 例如， 咖) 可 能是常 见的求 和公式 

么=—+  1)/2  (2.1) 

1=1 

这是说 1 到 《这《 个整 数的和 等于咖 +1)/2。 特例可 以是况 1)， 即等式 (2.1)在《为1 时的 情况， 
也就是 l=lx2/2。 归 纳步骤 就是要 表明， 由 2^=1«(«  +  1)/2 可 以得出 m+i1(«  +  l)(«  +  2)/2 ， 前者 
就是 况〃)， 是等式 (2.1) 本身， 而后 者则是 *S(«+1) ， 就是用 《+1 替换 了等式 (2.1) 中的 《。 2. 3 节 将会为 
大家 展示如 何进行 这样的 证明。 

(4)  程序 正确性 证明。 在计 算机科 学中， 我们 常希望 能够证 明与程 序有关 的命题 51  ⑻ 为真， 
不管 是采用 正式的 还是非 正式的 方式。 例如， 命题 可能 描述了 某个循 环的第 《 次迭代 中什么 
为真 ，或是 对某个 函数的 第《 次递归 调用来 说什么 为真。 对这类 命题的 证明一 般都使 用归纳 证明。 

(5)  归纳 定义。 计 算机科 学的很 多重要 概念， 特 别是那 些涉及 数据模 型的， 最好用 归纳的 
形式来 定义， 也就 是我们 给岀定 义该概 念最简 单形式 的基本 规则， 以及可 用来从 该概念 较小实 
例 构建更 大实例 的归纳 规则。 举例 来说， 我们 提到过 的表就 可由基 本规则 （空表 是表） 加上归 
纳规则 （一 个元 素后面 跟上一 个表也 是表） 来 定义。 

(6)  运行 时间的 分析。 算 法处理 不同大 小的输 入所花 的时长 （算 法的 “ 运行时 间”） 是衡量 
其 “优 良性” 的一 项重要 指标。 当算法 涉及递 归时， 我们会 使用名 为递推 方程的 公式， 它是种 
归纳 定义， 可以预 测算法 处理不 同大小 的输人 所花的 时间。 

本章会 介绍前 5 项 主题， 程 序的运 行时间 将在第 3 章中 介绍。 

2.1 本章主 要内容 

在本 章中， 我们将 介绍以 下主要 概念。 

□ 迭代程 序设计 （  2.2 节)。 

□ 归纳证 明 （  2.3 节和 2.4 节)。 

□ 归纳定 义 （  2.6 节)。 

□ 递归程 序设计 （  2.7 节和 2.8 节)。 

□ 证明 程序的 正确性 （  2.5 节和 2.9 节)。 

除此 之外， 通 过这些 概念的 例子， 我们还 会着重 介绍计 算机科 学中一 些有趣 的重要 思想。 
其中 包括： 

□ 排序 算法， 包括选 择排序 （2.2 节） 和归 并排序 （2.8 节)。 
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□ 奇偶校 验及数 据错误 的检测 （2.3 节)。 

□ 算术 表达式 及其代 数变形 （  2.4 节和 2.6 节)。 

□平衡 圆括号 （2.6 节)。 

2.2 迭代 

新手 程序员 都会学 习使用 迭代， 采用 某种循 环结构 （如 C 语 言中的 for 语句和 while 语 句)。 
在本 节中， 我们 将展示 一个迭 代算法 的例子 —— “ 选择排 序”。 在 2.5 节中， 我们 还将通 过归纳 
法 证明这 种算法 确实能 排序， 并会在 3.6 节中 分析它 的运行 时间。 在 2.8 节中， 我们 要展示 如何利 
用递 归设计 一种更 加高效 的排序 算法， 这种 算法使 用了一 种称作 “分而 治之” 的 技巧。 


常见 主题： 自定义 和依据 -归纳 

在 学习本 章时， 大家 应该注 意到有 两个主 题贯穿 多个 概念。 第一个 是自定 义（ self-definition  ), 
就是指 概念是 依据其 自身定 义或构 建的。 例如， 我们提 到过， 表可 以定义 为空， 或一个 元素后 
跟一 个表。 

第 二个主 题是依 据-归 纳 （ basis-induction  )。 递归 函 数通常 都含有 某种 针对不 需要递 归调用 
的 “ 依据” 实例， 以及 需要一 次或多 次递归 调用的 “ 归纳” 实例进 行测试 。 众所 周知， 归纳证 
明包 括依据 和归纳 步骤， 归纳 定义也 一样。 依 据-归 纳这一 对非常 重要， 在后文 中每次 出现依 
据情况 或归纳 步 骤时， 都 会突出 标 记这些 词语。 

运 用恰当 的自定 义不会 出现悖 论或循 环性， 因为 自定义 的子部 分总是 比被定 义的对 象“更 
小”。 此外， 在经 过有限 个通向 更小部 分的步 骤后， 就能到 达依据 情况， 也就是 自定义 终止的 
地方。 例如， 表 Z 是由 一个元 素和比 Z 少一 个元素 的表构 成的。 当我们 遇到没 有元素 的表， 就有 
了 表定义 的依据 情况： “ 空表是 表”。 

再举个 例子， 如果某 递归函 数是有 效的， 那 么从某 种意义 上讲， 某一 函数调 用的参 数必须 
要比调 用该函 数的函 数副本 的参数 “更 小”。 还有， 在经过 若干次 递归调 用后， 我们必 须要让 
参数 “小 到” 函 数不再 进行递 归调用 为止。 


2.2.1 排序 

要排 序具有 „ 个元素 的表， 我 们需要 重新排 表中的 元素， 使 它们按 照非递 减顺序 排列。 

♦ 示例 2.1 

假设有 整数表 {3,  1， 4,  1， 5,  9,  2,  6,  5}。 我们要 将其重 新排列 成序列 {1， 1， 2,  3,  4, 
5,  5,  6,  9}, 实现对 该表的 排序。 请 注意， 排序 不仅会 整理好 各值的 顺序， 使每 个元素 的值小 
于 等于接 下来那 个元素 的值， 而且不 会改变 每个值 岀现的 次数。 因此， 排序好 的表中 有两个 1 
和两个 5, 而原表 中只出 现一次 的数字 都只有 一个。 

只 要表的 元素有 “ 小于” 的顺序 可言， 也就是 具备我 们通常 用符号 < 表示的 关系， 就 可对这 
些元素 排序。 例如， 如果这 些值是 实数或 整数， 那么符 号< 就表 示实数 或整数 的小于 关系； 如果 
这些 值是字 符串， 就 按字符 串的词 典顺序 来排列 （“ 词典 顺序” 的介绍 详见下 文附注 栏)。 有时 
候， 当元 素比较 复杂， 比如 当元素 是结构 体时， 就 可能使 用每个 元素的 一部分 （比 如某 个特定 
字段） 来进 行比较 。 
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词 典顺序 

要比较 两个字 符串， 通常是 依据它 们的词 典顺序 进行比 较的。 假设 Clc2 … q 和 4 名… 也是两 
个字 符串， 其 中每个 c 和每个 d 都只代 表一个 字符。 字符 串的长 度灸和 m 不一 定是相 同的。 我们假 
设对字 符而言 也有< 顺序， 例如， 在 C 语言 中， 字符就 是小的 整数， 所以 字符常 量和字 符变量 
可 以在算 术表达 式中作 为整数 使用。 因此， 我们可 以使用 整数间 惯有的 < 关系， 区分两 个字符 
中哪 个字符 “ 小于” 另一个 字符。 这 种顺序 包含这 样一个 自然的 概念， 出 现在字 母表靠 前位置 
的小写 字母， 要“ 小于” 出现 在字母 表中靠 后位置 的小写 字母， 同样 的道理 对大写 字母也 成立。 

这样 我们可 以将字 符串的 这种顺 序称为 字典、 词典或 字母表 顺序， 如下 所示。 如果 以下任 
意一 条成立 的话， 我 们就说 ca … cf  d]d2 … dm。 

(1)  第 一 个字 符串是 第二个 字符串 的真前 缀（ proper  prefix ), 这表示 k<m, 而且对 z_=l ,  2, …， 
k 而言, 都有 q  =  根 据这条 规则， 就有 bat<batter。 作 为这条 规则的 特例， 可能有 灸=0， 
这样 第一个 字符串 就不 含任何 字符。 我们用 希 腊字母 e 表示 空 字符串 这 种不含 字符的 字 符串。 
当 灸=  0 时， 规则 （1) 表 示对任 何非空 字符串 ^ 而言， 都有 e<s。 

(2)  对某个 />0 的值， 两个字 符串的 前;_-1 个 字符都 相同， 但第一 个字符 串的第 / 个字 符要小 
于第二 个字符 串的第 / 个字 符。 也 就是说 ， 对/ =12, …, /-I， 都有 ~  =  而且 q 〈忒。 根 据这条 
规则， ball<base ， 因为 这两个 单词是 从第 3 个 字母起 开始不 同的， 而 ball 的 第三个 字母是 1 ， 
要比 base 的第三 个字母 s 更小。 


a 这一 比较关 系总是 表示， 要么 a<b ， 要么 a 和 6 具 有相同 的值。 如果 … ，也 
就 是说， 如 果这些 值有着 非递减 顺序， 那 么我们 就说表 （…，办…, &  ) 是已排 序的。 排 序是这 
样一种 操作， 它接受 任意表 （ 《i,  «2,  •••,  an  ), 并生 成满足 如下条 件的表 （ 心, …, b„)。 

(1)  表 b2, …, bn) 是已排 序的； 

(2) 表 （虼心, …, 心） 是 原表的 排列。 也就 是说， 表 （aha2, …， a„) 中的 每个值 出现的 次数， 
和 那些值 出现在 （ 心，… ，心） 中的 次数是 一模一 样的。 

排序算 法接受 任意的 表作为 输入， 并生 成对输 入进行 过排列 的 已排序 表作为 输岀。 

♦ 示例 2.2 

考虑 base,  ball ,  mound ,  bat ,  glove,  batter 这列 单词。 有了该 输入， 排序算 法会按 
照 词典顺 序生成 输岀： ball,  base,  bat,  batter,  glove,  mound 0 

2.2.2 选择 排序： 一种 迭代排 序算法 

假设 要对一 个具有 《 个整数 的数组 A 按照 非递 减顺序 排序。 我们 可以通 过对这 个步骤 的迭代 
来 完成该 工作： 找出 尚不在 数组已 排序部 分的一 个最小 元素'  将其 交换到 数组未 排序部 分的第 
一个 位置。 在第 一次迭 代中， 我 们在整 个数组 A[0.  .n-1] 中找岀 （“选 取”） 一个最 小元素 ，并 
将其与 A [ 0  ] 互换 位置。 ® 在第 二次迭 代中， 我们从 A  [1.  .n-1] 中 找出一 个最小 元素， 并 将其与 
A  [  1  ] 互换 位置。 继续进 行这种 迭代。 在开 始第什 1 次迭 代时， A  [  0  .  .  i-1  ] 已 经是将 A 中较 小的 


①  这里说 “ 一个” 最小 元素是 因为最 小值可 能出现 多次。 如果是 这样， 找 到任何 一个最 小值就 行了。 

② 为 了描述 数组中 某个范 围内的 元素， 我们 采用了 Pascal 语 言中的 约定。 如果 J 是数 组， 那么 A[i.  .j] 就表 示数组 
J 中 下 标从理 IJ/ 这个范 围内 的那些 元素。 
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void  SelectionSort (int  A[] ，  int  n) 

{ 

int  i,  j ,  small,  temp; 
for  (i  =  0;  i  <  n-1 ;  i++)  { 

/* 将 small 置为 剩余最 小元素 第一次 出现时 
的下标 *  / 

small  =  i; 

for  (j  =  i+1;  j  <  n;  j++) 
if  (A[j]  <  A  [small] ) 
small  =  j ; 

/* 到达这 里时， small 是 A  [i  •  .n-1] 

中第一 个最小 元素的 下标， */ 

/* 现 在交换  A  [small ] 与  A[i] 。 */ 

temp  =  A [small] ; 

A [small]  =  A  [i] ; 

A [i]  =  temp; 


在第 /  +  1 次迭 代中， 要找出 A[i.  .n-1] 中的一 个最小 元素， 并 将其与 A  [i] 互 换位置 。因 
此， 在 经过第 /  + 1 次迭 代之后 ， A  [  0  . . 幻已 经是将 A 中 较小 的 /  + 1 个元 素按照 非递减 顺序排 序了。 
在 经过第 n  +  1 次迭代 之后， 就 完成了 对整个 数组的 排序。 

图 2-2 展 示了用 C 语言编 写的选 择排序 函数。 这 个名为 SelectionSort 的 函数接 受数组 A 
作为其 第一个 参数。 第二 个参数 《 表示的 是数组 A 的长 度。 


图 2-2 迭 代的选 择排序 

第 (2) 到 (5) 这几 行程序 从数组 未排序 的部分 A [i.  .n-1] 中 选取一 个最小 元素。 我们 首先在 
第 (2) 行中 将下标 small 的 值设为 /。 第 (3) 到 (5) 这 几行的 for 循环 会依次 考量所 有更高 的下标 /， 
如果 A[j] 的 值小于 A[i.  .j-1] 这个范 围内的 任何数 组元素 的值， 那么就 将_«// 置为 /。 这样一 
来， 我们就 将变量 small 的 值置为 A [i.  .n-1] 中最 先岀现 的那个 最小元 素的下 标了。 

在 为下标 small 选好 值后， 在第 (6) 到 (8) 行中， 我 们要将 处于该 位置的 元素与 A  [幻 处的元 
素互换 位置。 如果 sma//  =  /， 交换 还是会 进行， 只是对 数组没 有任何 影响。 请 注意， 要交 换两个 
元素的 位置， 还需要 一个临 时的位 置来存 储二者 之一。 因此， 我 们在第 (6) 行将 A  [small] 里的 


个元 素按照 非递减 顺序排 序了， 而数组 中余下 的元素 则没有 特定的 顺序。 在第 汗1 次迭代 开始前 
数组 A 的状 态如图 2-1 所示。 

已 排序的  |  未 排序的 

^  t  r 

0  i  n-l 

图 2- 1 在 进行选 择排序 的第 /+ 1 次迭代 前数组 的 示意图 


对名 字与值 的约定 

我们 可以将 变量视 为具有 名字和 值的框 。 在 提到变 量时， 比如 abc， 我们会 使用等 宽字体 
来 表示其 名字； 在提 到变量 abc 的 值时， 我们会 使用斜 体字， 如 abc。 总之， abc 表 示框的 名字， 
而 Me 则 表示 它的内 容。 


\ — / \ — /  \ — /  \ ― /  \ ― / 

1  2  3  4  5 

/ - 、  / V  / - \  / - \  / - \ 
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值移到 temp 中， 并在第 (7) 行将 A  [  i ] 里的 值移到 A  [ small ] 中， 最终在 第⑻行 将原来 A  [ small] 
里的 值从 temp 移到 A  [  i  ] 中。 

♦ 示例 2.3 

我 们来研 究一下 Select ionSort 针对各 种输入 的行 为。 首先看 看运行 Select ionSort 
处 理没有 元素的 数组时 会发生 什么。 当《  =  0 时， 第 (1) 行中的 for 循 环的主 体不会 执行， 所以 
Select  ionSort 很 从容地 “ 什么事 都没做 ”。 

现在考 虑一下 数组只 有一个 元素的 情况。 这次第 (1) 行中的 for 循环的 主体还 是不会 执行， 
这种 反应是 令人满 意的， 因为 由一个 元素组 成的数 组始终 是已排 序的。 当《为0 或 1 时的情 况是重 
要 的边界 条件， 检测这 些条件 下算法 或程序 的性能 是很重 要的。 

最后， 我们 要运行 SelectionSort ， 处理一 个具有 4 个元素 的较小 数组， 其中 A[0] 到 A[3] 
分别是 
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1 
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3 

A 

40 

30 

20 

10 

我们从 /=0 起开始 外层的 循环， 并在第 (2) 行将 smal  1 置为 0。 第 (3) 到 (5) 行 构成了 内层的 循环， 
在该循 环中， J 依次 被置为 1、 2 和 3。 对于/ =1， 第 (4) 行的条 件是成 立的， 因为』 [1]， 也就是 30, 
要小于 J[sma//]， 即 J[0]， 或 者说是 40。 因此， 在第 (5) 行我 们会将 small 置为 1。 在 (3) 至 (5) 行第 
二次迭 代时， 有/ =  2, 第 (4) 行的条 件还是 成立， 因为 J[2]<41]， 所以我 们在第 (5) 行将 small 置 
为 2。 在第 (3) 到 (5) 行 的最后 一次迭 代中， 有/ =  3， 第 (4) 行的条 件依旧 成立， 因丸 4[3]<J[2]， 所 
以在第 (5) 行将 small 置为 3。 

现在 我们跳 岀内层 循环， 到达第 (6) 行。 ^A[smaU\  (即 10) 赋给 temp, 接 着在第 （7) 行， 
将 J[0] (也 就是 40) 赋给 A [3]， 然 后在第 (8) 行将 10 赋给 A [Q] 。 现在， 外 层循环 的第一 次迭代 
已经 完成， 而此时 的数组 A 就变 成下面 这样了 
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外 层循环 进行第 二次迭 代时， 有 /=1， 在第 (2) 行将 small 置为 1。 内层 循环起 初会将 j 置为 
2, 而因为 J[2]<J[1]， 第 (5) 行会将 small 置为 2。 对/ =  3  , 第 (4) 行的 条件不 成立， 因为 J[3] 多 
A[2]0 因此， 在 到达第 (6) 行时， 就有篇 a//=2。 第 (6) 到 (8) 行 会交换 A  [1] 和 A  [2] ， 让数 组变成 
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虽 然数组 现在正 好已排 序了， 但我们 还是要 迭代一 次外层 循环， 这时 /  =  2。 我 们在第 (2) 行 
将 small 置为 2, 内层循 环此时 按照/ =  3 的 情况来 执行。 因为第 (4) 行的 条件不 成立， 谓 《// 依旧 
为 2, 而在第 (6) 到 (8) 行中， 我 们会将 A[2] 与 其自身 “ 进行交 换”。 大 家应该 确认， msrnall=m, 
这种 交换是 没有效 果的。 


键排序 

在排 序时， 我 们会对 要排序 的值进 行比较 操作。 通常只 对值的 特定部 分进行 比较， 而用于 
比较的 这个部 分就称 为键。 
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#include  <stdio .h> 

#define  MAX  100 
int  A  [MAX] ; 

void  SelectionSort (int  A[] ,  int  n) ; 

main() 

{ 

int  i ,  n; 

/* 在 A 中读 取和存 储输入 */ 

for  (n  =  0;  n  <  MAX  kk  scanf  (M70d" ,  &A [n]  )  !  =  EOF ;  n++) 
> 

SelectionSort  (A, n)  ;  /*  排序  A  */ 
for  (i  =  0;  i  <  n;  i++) 

printf  (,,0/od\nn ,  A[i]);  /*  打印  A  */ 

} 

void  Select ionSort (int  A 口， int  n) 

int  i,  j ,  small ,  temp; 
for  (i  =  0;  i  <  n-1;  i++)  { 
small  =  i; 

for  (j  =  i+1;  j  <  n;  j++) 

if  (A[j]  <  A  [small] ) 
small  =  j ; 
temp  =  A [small] ; 

A  [small]  =  A[i] ; 

A  [i]  =  temp; 

}  ~ 


例如， 课表可 能是具 有如下 形式的 C 语言 结构 体数组 A 
struct  STUDENT  { 
int  student ID; 
char  *name ; 
char  grade ; 

>  A [MAX] ; 

我们 可能希 望通过 学号、 学 生姓名 或所在 年级来 排序， 每项内 容都可 以作为 键。 例如 ，如 
果 我们希 望通过 学号为 结构体 排序， 就可 以在 SelectionSort 的第 (4) 行进 行如下 比较： 

A [j] . student ID  <  A [small] .studentID 

数组 A 和交 换中使 用的临 时变量 temp 都是 struct  STUDENT 类型， 而不是 integer 类型 
的。 请 注意， 整个结 构体都 要进行 交换， 而不 仅仅是 交换键 字段。 

交 换整个 结构体 是很费 时的， 所以产 生了一 种更有 效率的 方法， 即使 用的另 一个元 素是指 
向 STUDENT 结 构体的 指针的 数组， 并 且只为 第二个 数组中 的指针 排序， 结 构体本 身在第 一个数 
组中 保持 不变。 我们 将这种 方式的 选择 排序留 作本节 的 习题。 


图 2-3 展示了 SelectionSort 函数 如何应 用到完 整的程 序中， 来给含 有《  (这 里约定 
100) 个整数 的序列 排序。 第 (1) 行会读 取并存 储数组 A 中的 《个 整数。 如果输 入超过 MAX， 只有前 
MAX 个整 数被装 入数组 A。 提供 一条消 息警告 用户输 人的数 字过大 在这里 可能很 实用， 不 过我们 
先不 考虑这 一点。 


、 — /  \ ― / 、 — /  \ — / 、 — / 

12  3  4  5 


> 


图 2-3 使用 选择排 序的排 序程序 
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第 (3) 行调用 SelectionSort 来为数 组排序 。第 (4) 行和第 (5) 行 会按照 排好的 顺序将 这些整 
数打印 岀来。 

2.2.3  习题 

(1)  假设用 SelectionSort 函数 来处理 包含如 下几组 元素的 数组： 

(a)  6， 8， 14， 17， 23 

(b)  17，  23，  14，  6，  8 

(c)  23,  17,  14,  8， 6 

在 每种情 况下， 分别 会发生 多少次 元素的 比较和 交换？ 

(2)  ** 在为具 有《个 元素的 序列排 序时， SelectionSort 进行⑻ 比较和 (b) 交换 的最少 次数及 最多次 
数 分别是 多少？ 

(3)  编写 C 语言 函数， 接 受两个 字符链 表作为 参数， 如果 第一个 字符串 在词典 顺序上 先于第 二个字 符串， 
就返回 TRUE。 提示： 实 现本节 中描述 的字符 串比较 算法。 当两个 字符串 前面的 字符相 同时， 通过在 
字符串 尾部让 该函数 调用自 身进行 递归。 除此 之外， 大 家还可 以设计 迭代算 法完成 同样的 工作。 

(4)  * 修 改习题 (3) 中的 程序， 使其 在比较 过程中 忽略字 母的大 小写。 

(5)  如 果所有 元素都 相同， 选 择排序 会做些 什么？ 

(6)  修改图 2-3 中的 程序， 使 其在数 组元素 不是整 数而是 类型为 struct  STUDENT 的结 构体时 执行选 
择 排序， 就 像前文 附注栏 “键 排序” 中所 定义的 那样。 假设键 字段是 studentID。 

(7) * 进一步 修改图 2-3, 使其 能为任 意类型 T 的元素 排序。 不过， 大 家可以 假设某 个函数 可 以接受 
某个 类型为 扣勺 元 素作为 参数， 并为 该元素 返回某 个任意 类型尤 的键。 还 假设有 函数々 接受类 型为足 
的 两个元 素作为 参数， 且 若第一 个元素 “ 小于” 第二个 元素， 就返回 TRUE, 否 则返回 FALSE。 

(8)  除了 在数组 A 中使 用整数 下标， 还可以 使用指 向整数 的指针 表示数 组中的 位置。 使 用指针 重写图 
2-3 中的选 择排序 算法。 

(9) * 正如 在前文 附注栏 “键 排序” 中提 到的， 如 果要排 序的元 素是诸 如类型 STUDENT 这样的 大型结 
构体， 我们可 以将它 们留在 原数组 中保持 原样， 并 在第二 个数组 中对指 向这些 结构体 的指针 排序。 
写下选 择排序 的这种 变形。 

(10)  写一 个迭代 程序， 打印一 个整数 数组中 的不同 元素。 

(11)  使用 本章开 始部分 所描述 的符号 S 和 n 来表示 以下 内容。 

(a)  1 到 377 中所 有奇数 的和。 

(b)  23\n  (假设 n 是偶 数） 中所 有偶数 的平方 的和。 

(c)  8 到夕 中所有 2 的 n 次幂 的积。 

(12)  证明当 small  =  i 时， 图 2-2 中的第 (6) 到 (8) 行 （ 进行 交换的 步骤） 对数组 A 没有 任何 影响。 

2.3 归 纳证明 


数 学归纳 法是种 实用的 技巧， 可用来 证明命 题^㈠) 对 所有非 负整数 都 为真， 或者 更一般 
地说， 对所 有不小 于某个 下限的 整数都 成立。 例如， 在本章 开头， 我 们提到 过可以 通过对 〃的归 
纳， 证 明对于 所有的 命题 y~^=l / = 咖 +i)/2 都 为真。 

现在， 假设* S ⑻是有 关整数 《 的任意 命题。 在 对命题 5X/2) 最简单 的归纳 证明形 式中， 要证 
明以 下两个 事实。 

(1) 依据 情况。 多为 ^(0)， 不过， 依据可 以是对 应任意 整数破 ^(幻 ， 这样就 是证明 只有在 
«彡々时 命题对 《) 成立。 
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(2) 归纳步 骤。 我们要 证明对 所有的 《彡0  (或 者如果 依据为 5(幻， 则是对 所有的 《彡灸）， 
都可由 只《) 推出 5X/7  +  1)。 在证明 过程中 的这个 部分， 我们假 设命题 5(/2) 为真。 称 为归纳 
假设， 而且要 假设它 为真， 接着 我们必 须证明 Mn  +  l) 为真。 


命名归 纳参数 

我 们可以 通过为 要证明 的命题 中的变 量《指 定直观 含义， 对归 纳作出 解释， 这 种做法 
通常很 有用。 如果 《 如示例 2-4 中 那样没 有特殊 含义， 就 可以说 “对 《 进行 归纳证 明”。 在 其他例 
子中， 《 可能具 有实际 意义， 比 如示例 2.6 中， "表 示码字 中的比 特数， 于 是就可 以说， “ 对码字 
中的 比特数 进行归 纳证 明”。 


图 2-4 展 示了从 0 开始的 归纳。 对 每个整 数〃， 都有命 题 5(/2) 要 证明。 对 5(1) 的证明 用到了 
5(0), 对 ^(2) 的证明 用到了 邓）， 以此 类推， 就如 图中箭 头所表 示的。 每 个命题 依赖前 一个命 
题的 方式是 统一的 。 也 就是说 ， 通 过对归 纳步骤 的一次 证明， 我 们可以 证明图 2-4 中箭头 表示的 
每个 步骤。 


图 2-4 在 归纳证 明中， 命题况 n) 的每个 实例都 是用比 n 的值小 1 的命 题实例 证明的 

♦ 示例 2.4 

作为 数学归 纳法的 示例， 我们来 证明如 下命题 
命题 。 对 任意的 都有 5X«)  :  =  2"+1  -1 

i=0 

这就 是说， 从 2 的 0 次幂到 2的《 次幂， 2 的 整数指 数幂之 和要比 2的《  +  1 次幂小 1®。 例如， 
1+2+4+8  =  16-1 ， 证 明过程 如下。 

依据。 要 证明该 依据， 我们 将等式 中的 《 替换为 0, 这样* S(«) 就成了 

0 

^2'  =2*-1  (2.2) 

1=0 

对 /  =  0, 等式 (2.2) 左边 的和式 中只有 一项， 这样 (2.2) 左边 的和为 2'  也就是 1。 而等式 (2.2) 
右边是 21-：!， 也就是 2-1， 其值 同样是 1。 因此 我们证 明了外 z) 的 依据， 也就 是说， 我 们证明 
了对于 《=0， 该等式 成立。 

归纳。 现在必 须要证 明归纳 步骤。 我们 假设只 《) 为真， 并证明 将该等 式中的 《 替换为 《  +  1 后 
等式也 成立。 要证明 的等式 ^(«+1) 如下 

月+1 

[2，=2”+2-1  (2.3) 


①证明 S ⑻也 可以不 使用归 纳法， 只需 要利用 几何级 数的求 和公式 即可。 不过， 该示 例可以 作为介 绍数学 归纳法 
的简单 例子。 此外， 利用我 们在高 中可能 见过的 几何级 数或算 术级数 求和公 式来证 明该命 题是相 当不严 谨的， 
而 且严格 地讲， 证明这 些求和 公式也 要用到 数学归 纳法。 
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要证 明等式 (2.3) 成立， 我们先 要考虑 等式左 侧的和 

n+l 

i=0 

这个和 几乎与 只《) 左侧的 和一模 一样， 左侧 的和为 

n 

i=0 

只不 过等式 (2.3) 左 侧多了  i  =  n  +  \ 时 的项， 也就是 2”+1 这 一项。 

因 为可以 假定归 纳假设 5(/7) 在等式 (2.3) 的证明 过程中 为真， 所以 应该将 利 用起来 。可 
以 将等式 (2.3) 中 的和分 为两个 部分， 其中之 一是外 0 中 的和。 也就 是说， 要将 /  =  «  +  1 时 的最后 
一 项分离 岀来， 将 其写为 

n+l  n 

=^2/+2,!+1  (2.4) 

i=0  i=0 

现在可 以利用 ⑻了， 可以用 ^ ⑻ 的右边 2”+1-1 来替 换等式 (2.4) 中的 5^2' ， 于是有 

n+l 

=2n+1  -  \  +  2n+l  (2.5) 

/=0 

将等式 (2.5) 的 右边简 化后， 它 就成了  2x2"+1-l， 也就是 2”+2-1。 现 在可以 看到， 等式 (2.5) 
左侧的 和值， 与等式 (2.3) 的左边 相同， 而等式 (2.5) 的 右边也 与等式 (2.3) 的右边 相同。 因此 ，就 
利 用等式 义 幻证明 了等式 (2.3) 的 正确性 ，这 段证明 过程就 是归纳 步骤。 由此得 出的结 论是， 义《) 
对 每个非 负整数 n 都成 立。 

2.3.1 归纳 证明为 何有效 


变量 的替换 

在需 要替换 变量， 比 如涉及 同一变 量的表 达式， 如 5X«) 中的 《 时， 常会产 生混淆 。例 如， 
我们要 用 《  +  1 替换 SO) 中的 《， 以得 出等式 (2.3)。 要进 行这种 替换， 必须先 标记出 S 中每 个出 
现《的 地方。 有个很 实用的 办法， 就是 先用某 个未在 S 中出 现过的 新变量 （比如 m) 来代替 《。 
例如， 5X«) 就成了 


^2!'  =2ffl+1-l 

i=0 

接 着在每 个出现 m 的地方 将其替 换成所 需的表 达式， 即本 例中的 《+1， 就得到 

/7  +  1 

^2'  =2(n+1)+1  -1 
i=0 

若将 U+1  )  +1 简化为 《  +  2， 就得到 了等式 (2.3)。 

请 注意， 我们应 该给用 来替换 的表达 式加上 括号， 以避免 意外改 变运算 顺序。 例如， 假设 
用 《  +  1 替换 表达式 2xm 中的 m, 但 没有给 n  +  l 加上 括号， 那么 就会得 到 2x«  +  l ， 而不 是正确 
的 表达式 2x(«  +  l) (也 就是 2x«  +  2)0 


在 归纳证 明中， 我 们先证 明了只 0) 为真。 接 下来要 证明， 如果 为真， 那么 M«+l) 是 
成 立的。 不过 为什么 接着能 得岀* S(«) 对所有 《彡0 都为 真呢？ 我 们会提 供两个 “证 据”。 某位数 
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学家曾 指出， 我们 证实归 纳法有 效的每 个“证 据”， 都 需要归 纳证据 本身， 因 此就根 本没有 证据。 
从技术 上讲， 归 纳肯定 能作为 公理， 然而 很多人 会发现 以下直 觉认识 也是有 用的。 

在接下 来的内 容中， 我们 假设作 为依据 的值是 《=0。 也就 是说， 我 们知道 M0) 为真， 而且 
对于所 有大于 0 的〃， 如果 为真， 那么 M«  +  l) 为真。 如果 作为依 据的值 是其他 整数， 也可以 
做出类 似的论 证。 

第一个 “证 据”： 归纳 步骤的 迭代。 假设要 证明对 某个特 定的非 负整数 a 有 Mfl) 为真。 如果 
a  =  0, 只要 援引归 纳依据 5(0) 的 真实性 即可。 如果 a>0, 那么 就要进 行如下 论证。 从 归纳依 
据 可知只 0) 为真。 对于 命题“ 可推出 5(«  +  1) ", 若将 《 替换为 0, 就成 了“以 0) 可推出 R1)  ”。 
因为我 们知道 5(0) 为真 ，现在 就知道 R1) 为真 。类 似地， 如果用 1 替换 1 就有“  R1) 可推岀 ^(2)  ” ， 
这 样一来 就知道 ^(2) 也 为真。 用 2 来替换 《， 则有 “^(2) 可推岀 5(3)”， 所以 5(3) 也 为真， 以此 
类推。 不管 a 取什 么值， 最终都 能得到 这样就 完成了 归纳。 

第二个 “证 据”： 最少 反例。 假 设至少 有一个 n 的值 可以使 S ⑻不 为真。 设 a 是令 Ra) 为假的 
最 小非负 整数。 如果 《=0, 就与我 们的归 纳依据 M0) 相互 矛盾， 所以 a —定 是大于 0 的。 不 过如果 
«>0, 而且 a 是令 为 假的最 小非负 整数， 那么只 a) 肯定 为真。 现在， 在 归纳步 骤中， 如果用 
a-1 代替 《， 就会有 SO-1) 可推岀 。 因为 ^O-l) 为真， 那么 肯定 为真， 又 相互矛 盾了。 
因为我 们假设 存在非 负整数 《 使外 0 为假， 并 引出了 矛盾， 所以外 0 对任何 《彡0 都一定 为真。 

2.3.2 检错码 

现 在我们 要介绍 “检 错码” 的 例子。 检错码 本身就 是个有 意思的 概念， 而且 引岀了 一段有 
趣 的归纳 证明。 当我们 通过数 据网络 传输信 息时， 会 将字符 （字 母、 数字、 标点 符号， 等等） 
编码成 位串， S 卩 0 和 1 组成的 序列。 此时 假设字 符是由 7 位表 示的。 不 过通常 每个字 符要传 输不止 
7 位， 而第 8 位可 以用来 检测一 些简单 的传输 错误。 也就 是说， 偶 尔有那 么一个 0 或 1 会因 为传输 
噪 声发生 改变， 结 果接收 到的就 是相反 的位， 进 人传输 线路的 0 成了  1， 而 1 成了 0。 如果 通信系 
统能在 8 位中的 一位发 生变化 时发岀 通知， 从而发 岀重传 信号， 将会很 有用。 

要 检测某 一位的 改变， 必须保 证任意 两个表 示不同 字符的 位序列 不只有 一个位 置不同 。不 
然 的话， 如果 那个位 置发生 变化， 结 果就成 了代表 另一个 字符的 代码， 可 能将没 法检测 到错误 
的 发生。 例如， 如果 一个字 符使用 位序列 01010101 表示， 而另 一个由 01000101 表示， 那 么如果 
左起第 4 个位 置发生 改变， 就 会将前 者变成 后者。 

要确 保不同 字符的 代码不 只有一 个位置 不同， 方法 之一是 在惯用 于表示 字符的 7 位码 前加上 
一个 奇偶校 验位。 如 果位序 列中有 奇数个 1， 则称其 具有奇 校验。 如 果位序 列中有 偶数个 1， 则 
其 具有偶 校验。 我们 选择的 编码方 式是以 具有偶 校验的 8 位码 来表示 字符， 也可以 选用带 奇校验 
的 代码。 通过 明智地 选择校 验位， 我们 可使奇 偶校验 成为偶 校验。 

♦ 示例 2.5 

用来表 示字符 A 的传 统的 ASCII  (音  “ask-ee”， 表示 American  Standard  Code  for  Information 
Exchange， 即 “ 美国信 息交换 标准码 ”） 7 位码是 1000001。 该 序列的 7 位中 已经有 偶数个 1 ， 所以 
我们 为其加 上前缀 0, 得到 01000001。 用 来表示 C 的传统 代码是 1000011， 这 和表示 A 的 7 位码只 
在第 6 位是不 同的。 不过， 这 个代码 具有奇 校验， 所 以我们 给它加 上前缀 1， 从而 产生具 有偶校 
验的 8 位码 11000011。 请注意 ，在 给表示 A 和 C 的代 码前加 上校验 位后， 就有了 01000001 和 11000011 
这 两个位 序列， 它 们的第 1 位和第 7 位这两 位是不 同的， 如图 2-5 所示。 
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A：  0 

1 

0 

0 

0 

0 

0 

1 

C:  1 

1 

0 

0 

0 

0 

1 

1 

图 2-5 可以选 择初始 奇偶校 验位， 使得 8 位码总 是具有 偶校验 

我 们总是 能选择 一个奇 偶校验 位加到 7 位 码上， 从而让 得到的 8 位 码中有 偶数个 1。 如 果表示 
字符的 7 位 码本来 就有偶 校验， 就选择 0 作为其 奇偶校 验位， 而对本 具有奇 校验的 7 位码， 则是选 
择奇偶 校验位 1。 不 管哪种 情况， 8 位 码中都 是包含 偶数个 1。 

两个 具有偶 校验的 位序列 不可能 只有一 个位置 不同。 如 果两个 这样的 位序列 只有一 个位置 
不同， 那 么其中 一个肯 定要比 另一个 多一个 1。 因此， 一个序 列必然 具有奇 校验， 而另一 个则是 
偶 校验， 与我 们都具 有偶校 验的假 设是矛 盾的。 因此 可得， 通 过加上 奇偶校 验位使 1 的数 量 为偶， 
可 为字符 创建检 错码。 

奇 偶校验 位模式 是相当 “高效 ”的， 从某 种意义 上讲， 它 让我们 可以传 输很多 不同的 字符。 
请 注意， 《 位的位 序列有 2” 个， 因为 我们可 以为第 一位选 择二值 （0 或 1) 之一， 可 以为第 二位选 
择二值 之一， 等等， 总共 可形成 2x2  x … x2  U 个 2 相乘） 个 位串， 所以， 最多有 望能用 8 位来 
表示 28  =  256 个 字符。 

然而， 在奇偶 校验模 式中， 只能选 择其中 7 位， 第 8 位是 无从选 择的。 因此 最多可 以表示 27, 
即 128 个 字符， 而 且能检 测某一 位上的 错误。 这样也 不错， 我们 可以用 256 个中的 128 个， 也就是 
8 位码所 有可能 组合的 一半， 来作 为字符 的合法 代码， 还能 检测某 一位中 出现的 错误。 

类 似地， 如果我 们使用 《 位的位 序列， 选择 其中一 位作为 奇偶校 验位， 那么 就能用 n-1 位 
的位序 列加上 合适的 奇偶校 验位前 缀 （ 其值由 另外那 《  -1 位 确定） 来表示 个 字符。 《 位的位 
序列有 2" 个， 我们可 以表示 2”  中的 2”-1 个， 或 者说是 可能字 符数的 一半， 而且可 以检测 位序列 
中任意 一 '位的 错误。 

有没有 可能检 测多个 错误， 并 使用超 过位序 列多于 一半的 可能组 合作为 合法代 码呢？ 下一 
个例 子将告 诉你这 是不可 能的。 这 里的归 纳证明 使用的 命题对 0 来说不 为真， 所以 我们必 须选用 
一 个更大 的归纳 依据， 也就是 1。 

♦ 示例 2.6 

我们要 对《 进行 归纳， 以证明 以下 命题。 

命题* s ⑻ 。如果 c 是长度 为《 的位串 的检错 （ 即两个 不同的 位串不 会刚好 只有一 个位置 不同） 
集合， 那么 C 最多 含有 2”-1 个 位串。 

这个 命题对 《  =  0 来说不 为真。 5(0) 表示 长度为 0 的位串 的检错 集合最 多只有 2-1 个， 也就 
是半个 位串。 从技术 上讲， 只由 空位串 （不 含任何 位置的 位串） 组成 的集合 C， 是 长度为 0 的位 
串 的检错 集合， 因为 C 中任意 两个位 串不会 只有一 个位置 不同。 集合 C 中不只 是有半 个位串 ，它 
其实 有一个 位串。 因此， 只 0) 为假。 不过， 对于 所有的 《彡1， S ⑻都 为真， 正 如我们 在下文 
将会看 到的。 

依据。 依据为 邓） ， 也 就是， 任何 检错的 长度为 1 的 位串的 集合最 多只有 2W  =2°  =1 个 位串。 
长度为 1 的位 串只有 两个， 一个 是位串 0,  一个 是位串 1。 然而， 在检 错的集 合中， 我们不 能同时 
拥有这 两者， 因为它 们正好 只有一 个位置 不同。 因此， 每个〃  =1 的 检错集 合肯定 最多只 有一个 
位串。 

归纳 。设 《 彡 1 ， 假定归 纳假设 —— 长度为 《的 位串 的检错 集合最 多只有 2”-1 个位串 —— 为真。 
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我们必 须用这 一假设 证明， 任何 长度为 M  +  1 的位 串的检 错集合 C 最多 只有 2”个 位串。 因此 ，将 C 
分 为两个 集合： Q， 即 C 中 0 开头 的位串 组成的 集合， 以及 q， 即 C 中 1 开头 的位串 组成的 集合。 
例如， 假设 /7  =  2,  CE 是长度 为《  +  1  =3, 而且 有一个 奇偶校 验位的 位串的 集合。 那么， 如图 2-6 
所示， C 由位串 000、 101、 110 和 011 组成， 由位串 000 和 011 组成， Cjlj 由位串 101 和 110 组成。 


图 2-6 集合 C 被分为 0 开 头位串 的集合 和 1 开 头位串 的集合 q， A> 和 A 则分 别由删 
除了 开头的 0 和 1 的位 串组成 

考虑一 下集合 A)， 它含有 删除了 中那 些位串 开头的 0 后 形成的 位串。 在上 面的例 子中， 
A) 含 有位串 00 和 11。 我 们要求 A) 不 能含有 两个只 有一位 不同的 位串。 原因 在于， 如果有 这样两 
个 位串， 比 方说琴 2_"««和^2" 丸， 然后恢 复它们 开头的 0， 就会给 出两个 Cq 中的 位串， 0邮2 … 
化和06 也… 心， 而 这两个 位串也 只有一 位是不 同的。 不过 Co 中的位 串也是 C 中的 元素， 而 且我们 
知道 C 中不 能有两 个位串 只有一 个位置 不同。 因此， A) 也 不行， 所以 A) 是检错 集合。 

现在 可以应 用该归 纳假设 得出， A) 作为一 个长度 为《 的位串 的检错 集合， 最多有 个 位串。 
因此， Q 最多有 2&1 个位 串。 

同样 ，可以 对(^ 集合作 岀类 似推论 。设 A 集合内 的元素 是删除 q 中位串 开头的 1 形成的 位串。 
A 是 长度为 《 的位串 的检错 集合， 而根 据归纳 假设， A 最 多只有 2”—1 个 位串。 因此， ^也 最多只 
有 2”-1 个 位串。 然而， C 中的每 个位串 不是在 中就是 在<^ 中。 因此， C 中 最多有 +  个， 
也就是 2" 个 位串。 

我 们已经 证明了  可推出 ^(«+1)， 所以可 以得出 结论， S ⑻对 所有的 《彡1 都为真 。我 
们在 声明中 排除了 《  =  0 的 情况， 因为归 纳依据 是《  =  1， 而不是 《  =  0。 现 在看到 带奇偶 校验检 
查 的检错 集合是 尽可能 大的， 因为它 们在使 用《个 位来构 成位串 时能有 2&1 个 位串。 


如何 构造归 纳证明 

没有什 么可以 保证给 出任意 （真） 命题 S(«) 的归纳 证明。 找 到归纳 证明， 就像找 到任意 
类型 的证明 那样， 或者 就像写 出能正 常运行 的程序 那样， 是 项挑战 智力的 任务， 而且我 们只有 
几句话 的意见 可提。 如果大 家研究 了示例 2.4 和示例 2.6 中 的归纳 步骤， 就会注 意到， 每 种情况 
下， 都必须 对试图 证明的 命题 SO  + 1) 加 以 处理， 使其 由归纳 假设 S(n) 和某些 额外内 容 组成。 
在示例 2.4 中， 我 们将和 


1  +  2  +  4  +  ■••  +  2n +2,!' 
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表示 为归纳 假设 告诉我 们的和 

1  +  2  +  4  + … +  2n 

加上 2”+1 这 一项。 

在示例 2.6 中， 我们 用两个 长度为 《 的位 串集合 （称为 A) 和乃 1 ) 表示 长度为 《  +  1 的位 串集合 
C, 这样 一来， 就可 以将归 纳假设 应用到 这些集 合上， 并推 断出这 两个集 合都是 大小有 限的。 

当然， 对命题 以《  +  1) 加以 处理， 从 而使我 们能应 用归纳 假设， 只是更 普遍的 解题箴 言“运 
用给定 条件” 的一 个特例 。 当必须 处理* S(«  +  l) 的 “ 额外” 部分， 并利用 *S(«) 完 成对以 《  +  1) 的 
证 明时， 才是最 让人头 疼的。 不过， 以下 规则是 普遍适 用的。 

□ 归纳 证明必 须在某 个地方 表述“ …… 而且通 过归纳 假设我 们可知 …… ”。 如 果没有 的话， 
就不算 是归纳 证明。 


2.3.3  习题 

(1)  通过对 《从《  =  1 起进行 归纳， 证 明以下 公式。 

⑻  =  «(«  +  1)/ 2 

(b)  Z;y2=_  +  l)(2n+l)/6 

(c)  J^l/  =  n2(n  +  l)2/4 

(d)  ；=11/ /'O' +  !)  =  «/(«  +  !) 

(2)  形如 （,=n(«  +  l)/2 的 数字称 为三角 形数， 因为 将弹珠 排列成 等边三 角形， 每条 边上排 《 个， 那么 
弹 珠的总 数就是 而 从我们 在习题 (1) 中证 明的 结论可 知这是 4 个 弹珠。 例如， 保龄 球瓶排 
列 成每条 边上有 4 个 球瓶的 等边三 角形， 共有 =4x5/2  =  10 个保龄 球瓶。 用归纳 法证明 
工 = n{n  +  l)(n  +  2)  /  6 。 

(3)  判 断以下 位序列 的奇偶 校验是 偶校验 还是奇 校验。 

(a)  01101 

(b)  111000111 

(c)  010101 

(4)  假设 我们用 3 个 数字， 比如 0、 1 和 2, 来为符 号编码 。由 0、 1 和 2 组 成的位 串集合 C 中， 如果任 意两个 
位串不 只有一 个位置 不同， 那么这 个集合 就是检 错的。 例如， {00,  11,  22} 就是 长度为 2 的位 串的检 
错 集合。 证明对 任意的 使 用数字 0、 1 和 2 组成的 长度为 《 的位串 的检错 集合最 多只有 个 位串。 

(5) * 证明： 对 任意的 n 彡 1， 存 在使用 0、 1 和 2 三 个数字 组成的 长度为 n 的位串 的检错 集合， 其 中含有 
3”_1 个位 串。 

(6) * 证明： 如 果使用 F 卜符 号， 对 任意的 A 彡 2, 都 有使用 & 个 不同符 号作为 “ 数字” 并且 长度为 《 的 
位串 的检错 集合， 其 中具有 f* 1 个 位串， 但这 样的位 串集合 肯定不 可能含 有超过 F-1 个 位串。 

(7) * 如果 则使用 0、 1 和 2 这三个 数字组 成的位 串中， 连续 位置完 全不具 相同数 字的位 串共有 
3x2n_1  个。 例如， 长度为 3 的此 类位串 共有：  010、 012、 020、 021、 101、 102、 120、 121、 201、 
202、 210 和 212。 通过 对位 串的长 度进行 归纳来 证明该 结论。 这个 公式对 》=0 来 说是否 为真？ 

(8) * 证明： 1.3 节中 讨论过 的行波 进位加 法算法 能产生 正确的 答案。 提示： 通过对 / 的归纳 证明， 考虑 
从右 端起的 / 位， 两个 加数后 / 位的 和， 其二进 制形式 为进位 位后跟 上目前 为止所 生成的 / 位结 果。 

(9)  * 含《个 项的几 何级数 a,  ar2,  ar3 4 5 6 7 8 9, …, arn_1 的和 公式是 


(r  — 1) 
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通过对 》的 归纳来 证明该 公式。 请 注意， 要 让公式 成立， 必 须假设 在 证明过 程中会 在哪里 
用到 这一假 设呢？ 

(10)  第 一项为 a， 公差为 的算 术级数 a,  (a+b),  (a+2b),  ■■■,  (a+(«-l)Z>) 的求和 公式为 

n—1 

y]a  +bi  =  n{2a  +  (n  -1)Z>)  /  2 

!=0 

(a)  通过对 《 的归纳 证明该 公式。 

(b)  证 明习题 (1) 中的 (a) 也是该 公式的 一例。 

(11)  给岀 两段非 正式的 证明， 表 明虽然 命题双 0) 为假， 但归纳 可以从 1 开始 “起 效”。 

(12)  通 过对位 串长度 的归纳 证明， 由奇 校验位 串构成 的代码 也可以 检错。 

(13) ** 如果某 种编码 中任意 两个位 串不同 的位置 不少于 3 位， 那么 我们就 可以通 过找岀 该编码 中与接 
收到 的位串 仅有一 位不同 的唯一 位串， 纠 正单个 错误。 事实 证明， 有一 种针对 7 位 位串的 编码， 
它可以 纠正单 个错误 并含有 16 个 位串。 试着找 岀这种 编码。 提示： 推理 岀来可 能是最 佳方法 ，不 
过如 果推理 失败， 可以 写程序 来搜索 这样的 编码。 

(14)  * 偶校 验码可 否检岀 “ 双重错 误”， 也 就是两 个不同 位上的 改变？ 它 能否纠 正单个 错误？ 


算 术和与 几何和 


高中代 数中的 两个公 式我们 会经常 用到。 它 们都有 着有趣 的归纳 证明， 也就 是我们 在习题 (9) 和习题 
(10) 中让 读者证 明的。 

算术级 数 （ 即等差 数列） 是 一列具 有以下 形式的 n 个数 字。 


a,  (a+b),  (a+2b),  •••,  (a+(n-l)b) 

第 一项为 a, 而每 一项都 要比前 一项大 6。 这《 个数字 的和， 就是第 一项和 最后一 项的平 均数的 《 倍, 


也就是 


y^  a  +  bi  =  n(2a  +  {n  -  \)b)  /  2 

i=0 

例如， 考 虑一下 3  +  5  +  7  +  9  +  11 的和。 总共有 《  =  5 项， 第 一项为 3, 最后 一项为 11。 因此， 这个和 
就是 5x(3  +  ll)/2  =  5x7  =  35。 可 以把这 5 个数加 起来， 来证明 这个 和是正 确的。 

几何级 数 （ 即等比 数列） 是一列 具有如 下形式 的《个 数字。 

2  3  n-\ 

a,  ar,  ar  ,  ar  , …， ar 


也 就是说 ， 第 一项为 a, 而 每一项 都是前 一项的 r 倍。 n 项 几何级 数的和 公式是 


ar1 


{arn  -  a) 
(r-1) 


在 这里， r 可 以大于 1， 也可 以小于 1。 如果 r  =  l 的话， 以 上公式 就不可 用了， 不 过所有 项都是 a， 其 
和也很 明显， 就是 an。 

作为几 何级数 求和的 例子， 考 虑一下 1+2+4+8+16。 这时 "=  5， 第一项 a 就是 1， 而公比 r  =  2 ， 因此 
这个 和就是 

(1x25  -1)/(2-1)  =  (32-1)/1  =  31 

再举 一个大 家可以 验证的 例子， 考虑 1  +  1/ 2  +  1/4  +  1/8  +  1/16  ◦还是 《  =  5 而且 a  =  1 ， 不过 r=l/2 ， 
这个 和就是 

(lx(I)5-l)/(i-l)=(-31/32)/(-l/2)=l^ 
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简 单归纳 的模板 

我们对 2.3 节进行 总结， 给 出适用 于 该节中 归纳 证明过 程的简 单 模板。 2.4 节 中将 介绍更 为通用 的 模板。 

(1)  指定待 证明的 命题* S(«.)。 表明 自己要 通过对 《 .的归 纳， 对所有 彡 i。， 证明 S(n)。 这里的 /0 是作为 

归纳 依据的 常数， 通常 /0 是 0 或 1， 不过它 也可以 是任意 整数。 直观 地解释 n 的 含义， 比如， n 是 码字的 长度。 

(2)  陈 述依据 情况， S(i0)  o 

(3)  证 明依据 情况， 也就 是解释 S(i0) 为何 为真。 

⑷ 陈述 对某些 n , 假设有 *S(n) ， 也就 是陈述 “ 归纳假 设”， 建 立归纳 步骤。 用 《+  1 替换命 题只《) 
中的 《 来表示 5(«.  +  1)。 

(5)  假 定归纳 假设 S ⑻ 为真， 证明 + 1) 。 

(6)  得出* S(«.) 对所有 n 彡 / 。都 （但对 更小的 《 .不一 定） 为真 结论。 


2.4 完 全归纳 

目前 为止所 看到的 例子， 在证明 s(«+i) 为 真时， 都只 用到了  s ⑻作 为归纳 假设。 不过 ，由 
于要对 参数从 归纳依 据开始 增加的 值证明 命题& 我们可 以对从 归纳依 据到〃 的所有 / •的 值使用 
S(i) , 这 种形式 的归纳 叫作完 全归纳 （有 时也 称为完 美归纳 或强归 纳）。 而 2.3 节 所示的 简单归 
纳 形式， 也就 是只用 只幻来 证明只 《  +  1) , 有时被 称为弱 归纳。 

先来考 虑一下 如何进 行从归 纳依据 《  =  0 开始 的完全 归纳。 要通过 以下两 个步骤 来证明 
对所有 为真。 

(1)  先证 明归纳 依据， *s(o)。 

(2)  假设 R0),  5(1),  •••,  ^(«)全 为真， 作 为归纳 假设。 从这些 命题来 证明外 2  +  1) 成立。 
至于在 2.3 节中描 述的弱 归纳， 也可以 在选择 0 之外 再选择 某个值 a 作为 归纳 依据， 然 后证明 

从 fl) 归纳 依据。 而且在 归纳步 骤中， 可以只 假定* S(a),  *S0  +  1),  •••S(n) 为真。 请 注意， 弱归纳 
是完 全归纳 的一个 特例， 应用弱 归纳， 我们在 之前的 命题中 只选择 从《) 来证明 M«  +  l)。 

图 2-7 表 示了完 全归纳 的原理 。命题 *S(n) 的 每个实 例在其 证明过 程中都 可以使 用下标 比其小 
的任意 实例。 


图 2-7 完全归 纳允许 每个实 例在其 证明过 程中使 用在它 之前的 一个、 一些 或是所 有实例 

2.4.1 使用多 个依据 情况进 行归纳 

在进行 完全归 纳时， 拥 有多个 依据情 况往往 是很实 用的。 如果希 望证明 命题外 《) 对所有 
& 都为真 ，那 么不仅 可以用 作为依 据情况 ，而且 能用一 些大于 /。 的连 续整数 ( 假设是 /。 ， i0+\, 
i0+2,-,  jo  ) 作 为依据 情况。 然 后我们 必须完 成以下 两步。 


36  第 2 章 迭代、 归纳 和递归 


(1)  证明每 个依据 情况， 即命题 邓。）， S(i0+l),---, 从乂）。 

(2)  假设对 于某个 《彡70,  S(i0) ,  5*(4 +1), …， 5*(«)全 成立， 作 为归纳 假设， 并证明 +  +  1) 
为真。 

♦ 示例 2.7 

第 一个完 全归纳 的例子 是使用 多个依 据情况 的简单 例子。 正 如我们 将要看 到的， 它 只是有 
限 程度的 “完 全”。 为了 证明帥 +1)， 我 们没有 使用负 《)， 而只使 用了峋 -1)。 在更普 遍的完 
全 归纳推 理中， 我们要 使用釗 《)、 以 《-1) 以 及命题 S 的很 多其他 实例。 

下面 通过对 《 的归 纳来对 所有的 《彡0 证明以 下命题 。 ® 

命题从 《)。 总是存 在整数 fl 和 6  ( 正 整数、 负 整数或 0)， 使《  =  2«  +  3 办。 

依据。 我们同 时采用 0 和 1 作 为依据 情况。 

⑴ 对于 《  =  0， 可 以选用 a  =  0 和办 =  0。 显然 0  =  2x0  +  3x0o 
(2) 对于 《  =  1， 可以选 用 a  = -1 和 6  =  1 。 然后有 1  =  2x(-1) +  3x1 。 

归纳。 现在， 可对 任意的 《彡0, 假设岛 0 为真， 并 证明帥 +  1) 为真。 请 注意， 可假设 《 
至少是 从我们 已证明 的依据 （这里 ) 起的连 续值中 最大的 那个。 而 命题以 〃+1) 就 是说存 
在某 些整数 a 和仏 使得 《  +  l  =  2a  +  3 办。 

归 纳假设 表明从 0), 从 1), …， 全部 为真。 请 注意， 序列从 0 开始是 因为它 是连续 依据情 
况的 下限。 因为可 以假设 《彡1， 我们知 道《-1彡1， 因此邱 7-1) 为真。 该 命题就 是说， 存在整 
数 a  和 6， 使得 《  +  l  =  2a  +  360 

由于 命题峋 +  1) 中需 要用到 a ， 因此这 里重新 声明岣 -1) 使 用不同 名称的 整数， 比 方说存 
在整数 a' 和 V， 使得 

n-\  =  2a'  +  3b'  (2.6) 

如果给 (2.6) 的两边 都加上 2, 就得到 《  +  l  =  l(a，+  l)  +  3Z/。 如果 接着令 a  =  a，+  l， b  =  b'  ,  M 
么就存 在整数 a 和乂 使得命 题《  +  1  =  2«  +  36为真。 该命 题就是 5>  +  1) ， 所 以我们 已经证 明了该 
归纳 推理。 请 注意， 在 证明过 程中， 没有 用到双 《)， 但用到 了峋-1)。 

2.4.2 验证完 全归纳 

就像 2.3 节中讨 论的普 通归纳 （或 “弱” 归纳） 那样， 通过 “最少 反例” 论证， 完全 归纳也 
可 以被直 观地证 实为一 种证明 技巧。 令 依据情 况为从 ^)， S(i0+l),  S(J0) , 并假设 已经证 

明了对 任意的 《 彡 7。， S(i0)  ,  S(i0+1)  ,  •••,  5(«) 能一起 推出帥 +  1)。 现在， 假 设至少 存在一 
个 不小于 & 的 《 值使 不 成立， 并设 6 是令 况句 为假的 最小的 不小于 z_Q 的 整数。 那么 6 就 不能是 /o 
和 /0 之间的 整数， 否则与 归纳依 据矛盾 。此 外， ^ 也不 能大于 /。。 不然， S(i0)  ,  S(i0+l),-,  S(b-\) 
全 为真。 而归 纳步骤 接着就 会告诉 我们况 句也 为真， 这样就 产生了 矛盾。 

2.4.3 算 术表达 式的规 范形式 

现在探 讨将算 术表达 式变形 为等价 形式的 例子。 它表明 完全归 纳利用 了可假 设待证 明的命 
题 5^ 所有 《 以下 （包含 《) 的参 数都为 真这一 事实。 


① 其实， 这个 命题对 所有的 《， 不论 《是 正整数 还是负 整数， 都是成 立的， 不过 《 为负整 数的情 况需要 另外进 行归纳 
推理， 我们将 这个证 明过程 留给大 家作为 习题。 
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作为一 种激励 形式， 编程 语言的 编译器 可以利 用算术 运算符 的代数 形式， 重 新排列 所计算 
的算 术表达 式中操 作数的 顺序。 这种重 排的目 标是为 计算机 找岀一 种比表 达式原 有计算 顺序耗 
时更 少的方 式来计 算该表 达式。 

在本 节中， 只考虑 含有一 种结合 和交换 运算符 （比如 +) 的 算术表 达式， 并看 看可以 对操作 
数进 行怎样 的重新 排列。 我们将 证明， 如 果有任 意只含 “+” 运算 符的表 达式， 那 么该表 达式的 
值， 要与其 他任何 只对同 样操作 数使用 “+” 的表达 式的值 相等， 不 管以何 种顺序 排列及 （或） 
以何 种形式 组合。 例如 


(a3  +(a4  +flj))  +  (a7  +a5)  =  a{  +(a2  +(a3  +(a4  +a5))) 

我们将 进行两 段单独 的归纳 推理， 以证 明这一 说法， 其中第 一段归 纳推理 是完全 归纳。 


结 合性和 交换性 

回 想一下 加法结 合律， 就是说 在求三 个数的 和时， 既可 以将前 两个数 相加， 然后加 上第三 
个数 得到 结果， 也可以 用第一 个数， 加上 第二个 数与第 三个数 相加的 结果， 两种 情况下 结果是 
相 同的。 形如： 

(五 1  +  五2)  +  £3  = 馬  +(E2  +E3) 

其中 ，五 b 坞和 馬都是 算术表 达式。 例如， 

(1  +  2)  +  3  =  1  +  (2  +  3) 

这里有 £\=1、 E2=2, 以及 五3=3。 还比如 

(0少) +  (3z-2))  +  (y  +  z)  =  xy  +  ((3z  -2)  +  {y  +  z)) 

这里有 五尸文少， Ei=l>z—2, 以及 

接着回 想一下 加法交 换律， 就是 说可以 将两个 表达式 按照任 意顺序 相加。 形如： 

+  E2  =  E2+  El 

例如， 1  +  2  =  2  +  1， 以及 x 少 +  (3z-2)  =  (3z-2)  +  x 少。 


♦ 示例 2.8 

我们要 对《  (表达 式中操 作数的 数目） 进 行完全 归纳， 以 证明命 题识幻 成立。 

命题负 《)。 如果五 是含有 “+” 运 算符和 《 个操作 数的表 达式， 而 a 是其中 一个操 作数， 那么 
可以 通过使 用结合 律和交 换律， 将五 变形成 a  +  F 的形 式， 其中 表达式 F 含有 五中除 a 之外 的所有 
操 作数， 而 且这些 操作数 是使用 “+” 运算符 以某种 顺序组 合在一 起的。 

命题对 《) 只对 彡 2 成立， 因为 表达式 五中至 少要岀 现一次 “+” 运 算符。 因此， 我 们要使 
用《  =  2 作 为归纳 依据。 

依据。 令《  =  2。 那 么五只 可能是 fl  + 办或 办+  a ， 如果说 a 之 外的那 个操作 数是石 的话。 在 a  +办 
中， 令 F 为表 达式乂 那么命 题就成 立了。 而在 6  +  a 的情 况下， 注意到 通过使 用加法 交换律 , b  +  a 
可以 变形为 a  +  6, 因此我 们就可 以再次 令尸=石。 

归纳。 设五有 《  +  1 个操 作数， 并 假设况 /) 对 /  =  2,3, …, 《都 为真。 我们 需要为 《彡2 证明 该归 
纳 步骤， 所以可 假设五 最少有 3 个操 作数， 也就是 至少出 现两次 “+” 运算符 。可 以将五 写为巧 + 尽， 
其中^ 和馬是 某些表 达式。 因为 五中正 好有〃 +  1 个操 作数， 而且五 i 和氏 都一 定至少 含有这 些操作 
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数中的 一个， 这样 一来私 和尽中 的操作 数都不 能超过 《 个。 因此， 归纳 假设适 用于私 和馬， 只要 
它们 都不止 有一个 操作数 （因 为我 们开始 时将〃  =  2 作为依 据)。 有 4 种情 况必须 考虑： 是在石 
中 还是在 及中， 以及 a 是否 为尽或 佐中唯 一的操 作数。 

(a)  五 :就是^ 本身 。 当五为 a  +  (6  + c) 时， 就 是这种 情况。 这 里氏就 是 a, 而 五2 就是 6  +  c。 在这 
种情 况下， 五 2就是尸， 也就 是说， 五 本身就 已经是 fl  +  F 的形 式。 

(b) ^ 含有 多个操 作数， a 是其 中一个 。比如 

K  =  {c  i^d  +  a))  (b  c) 

其中^  =c  +  (d  +  a)， E2=b  +  e。 这里， 因为尽 的操作 数不超 过《 个， 但至少 达到了 两个， 
所以 可以应 用归纳 假设， 使 用交换 律和结 合律， 将私 变形为 a  + 馬。 因此， 五可以 变形为 
(a  + 尽) + 尽。 对该式 应用结 合律， 就能将 £ 进一步 变形为 a  +  CE3+ 尽）。 这样， 我 们就可 以选择 
F^]E3+E2  , 这 就证明 了这种 情况下 的归纳 步骤。 对 本例中 的五， 也可以 假设将 巧 =c  +  (d  +  a)^ 
形为 a  +  (c  +  d)  o 那么域 可 以重新 分组为 a  +  ((c  +  ^)  +  (6  +  e)) 。 

(c)  五 2就是〜 例如， E  =  b  +  (a+c)0 这种情 况下， 可以 用交换 律将五 变形为 a  + 岑， 如果令 
F 为 这就 是我们 想要的 形式。 

(d)  五 2 含有 包括 a 在内的 多个操 作数。 比方说 ，五 = b  +  (a  +  c), 这时可 以用交 换律将 五变形 
成尽 + 尽， 这 样就成 了情况 (b)。 如果五 = b  +  (a  +  c), 可 将五先 变形为 (a +  c) +  6。 通过 归纳假 
设， C 可以 转换成 所需的 形式， 事 实上， 结果 已经岀 来了。 然后 结合律 就将五 变形为 a  +  (c  +  b)0 

在这 4 种情 况中， 都 是将五 变形为 所需的 形式。 因此， 归 纳步骤 得到了 证明， 可以得 出只… 
对 所有的 都 为真的 结论。 

♦ 示例 2.9 

示例 2.8 中 的归纳 证明直 接引岀 了一种 将表达 式转换 成所需 形式的 算法。 考虑 如下表 达式作 
为 例子： 

E  =  (x  +  (z  +  v))  +  (w  +  y) 

假设 v 是我 们希望 “拉 岀来” 的 那个操 作数， 也 就是扮 演示例 2.8 的 变形中 《 的那个 角色。 一 开始， 
我们 介绍一 个符 合情况 (b) 的 例子， 其中 A^  +  G  +  v)， 而 五2=冰+少。 

接着， 必须对 表达式 氏进行 处理， 从而将 v  “拉岀 来”。 ^符 合情况 (d)， 因此 我们先 用交换 
律将其 变形为 (Z  +  V)  +  JC。 作 为情况 (b) 的 实例， 必须对 表达式 z  +  v  (情况 (c) 的 实例） 加以 处理， 
因 此要通 过交换 律将其 变形为 v  +  z 。 

现 在氏被 变形为 (V+Z)  +  JC ， 接着使 用结合 律将其 变形成 V  +  (Z  +  JC), 也就是 将£变 形成了 
(v  +  Cz  +  :v:))  +  0  + 乂)。 通过结 合律， 可把五变形为沙+匕+  :^  +卜+少）。 因此， E  =  v  +  F  , 其中 
就是 表达式 (z  +  x)  +  (w  + J；) 。 图 2-8 总 结了整 个变形 过程。 


(ar  +  (2  +  v))  +  (w  +  y) 
((z  +  v)  -h  x)  +  {w  +  y) 
((v  +  z)  +  x)  +  (w  +  y) 
{v  +  (z  +  x))  +  (w  +  y) 
w  +  ((z  +  x)  +  (w;  +  y)) 


图 2-8 使 用交换 律和结 合律， 可以 将任意 操作数 （ 比如 v)  “拉 岀来” 
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现在， 可以使 用示例 2.8 中证明 过的命 题来证 明我们 的原始 论点， 也就 是说任 意两个 只涉及 
+ 运算 符与同 一些不 同操作 数的表 达式， 都可 以通过 结合律 和交换 律相互 变形。 这 里是用 2.3 节 
中讨 论的弱 归纳证 明的， 没有使 用完全 归纳。 

♦ 示例 2.10 

让我们 通过对 表达式 中操作 数的个 数《的 归纳证 明以下 命题。 

命题 r(«)。 如 果五和 尸 是只含 + 运算 符以及 同一组 〃个不 同操作 数的表 达式， 那 么可以 通过多 
次应 用结合 律和交 换律将 £ 变形为 F。 

依据。 如果 《=1， 那么 两个表 达式肯 定都只 有一个 操作数 a。 因 为五和 F 是相 同的 表达式 ，所 
以 五确实 “可变 形为”  F。 

归纳。 假设 r(«) 对某些 n 彡 1 为真， 现在 要证明 r(«+i) 为真。 设五和 ^ 是具有 同一组 《  +  1 个 
操作 数的表 达式， 由于 /7  +  1>2, 那 么示例 2.8 中的 命题％ +  1) 必然 成立。 因此， 我们可 将五变 
形为 a  +  尽， 其中馬 是含有 五中其 他《 个操作 数的表 达式。 类 似地， 可以将 ^ 变形为 fl  +  g ， 其中 
巧与 氏含有 相同的 《 个操 作数。 更重要 的是， 在 这种情 况下， 我 们还可 以进行 逆向的 变形， 使用 
结合 律和交 换律将 a  +  Fx 变形为 F。 

现在 可以对 石和巧 援引归 纳假设 r(«)。 这两 个表达 式具有 相同的 〃个操 作数， 因此 归纳假 
设可以 应用。 这就 是说我 们可将 氏变形 为巧， 所 以可将 fl  +  g 变形为 a  +  因此 我们可 以通过 
如 下变形 

E  — … —a  +  Ei  使用 51 ⑻ 

— - - >a  +  Fi  使用  Tin) 

— —— >F  逆向 使用冲 2  +  1) 

将 £ 变形为 F。 

♦ 示例 2.1 1 

让 我们将 五 =  O  +  j0  +  (w+z) 变形为 F  =  (0  +  z)  +  _y)  +  x 。 先选择 一个要 “拉 出来” 的操作 
数， 比 如说是 w。 如果审 视示例 2.8 中的 情况， 就 会发现 我们对 £ 进行 了一系 列变形 

(x  +  y)  + (w  + z)  ^  (w  + z)  +  (x  +  y)  ^  w  +  (^z  +  (x  +  y))  (2.7) 

而对 F 进行 了如 下变形 

[(w  +  z)  +  y^  +  x  [w  +  {z  +  y))  +  x  w  +  {{z  +  y)  +  x)  (2.8) 

现在 有了将 z  +  (jc  +  _y) 变形为 (z  +  jO  +  x 的子 问题。 我们要 通过将 x  “拉 岀来” 来解决 这一问 
题， 需要 进行的 变形是 

z +  (x  + y)  (x  +  y)  +  z  x  +  (y  +  z)  (2.9) 

和 

(z  +  y)  + x  ^  x  +  (z  +  y)  (2.10) 

这又带 来了将 7  +  z 变形为 z  +  7 的子 问题， 只要应 用交换 律便可 解决该 问题。 严格 地说， 
我 们使用 了示例 2.8 的 技术， “拉岀 ”了每 个表达 式中的 J；， 为每 个表达 式留下 y  +  z 。然 后示例 2.10 
中的 依据情 况告诉 我们， 表达式 z 可以 “变 形为” 它 本身。 

通过行 (2. 9) 中的 步骤， 可以将 z  +  0  +  jF) 变形为 O  +  M  +  x ， 接 着对子 表达式 _F  + 2： 应 用交换 
律， 最后 再反向 使用行 (2. 10) 中的 变形。 我 们把这 些变形 当作将 O  +  jO  +  O+z) 变形为 
((w+z)  +  jO  +  ^ 的 中间过 程。 首先要 应用行 (2.7) 中的 变形， 接 着用刚 讨论的 变形将 z  +  (x  +  7) 变 
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形为 (z  +  jO  +  x， 最后 再反向 使用行 (2.8) 中的 变形。 整个 变形过 程可概 括为图 2-9 所示的 情况。 


(x  y)  (w  z) 

表 达式五 

(w  +  z)  +  (x  +  y) 

(2.7) 的中 间形式 

w  +  {z  +  {x  +  y)) 

(2.7) 的最 终形式 

w  +  ((x+ v)  +  z) 

(2.9) 的中 间形式 

w  +  (x  +  (y  +  z)) 

(2.9) 的最 终形式 

w  +  (x  +  (z  +  y)) 

交换律 

w  +  ((z  +  y)  +  x) 

反 向使用 (2.10) 

(■W  +  (z  +  J；))  +  X 

反 向使用 (2.8) 的中 间形式 

((w  +  z)  +  j)  +  x 

表达式 F, 反 向使用 (2.8) 的最 终形式 

图 2-9 使用交 换律和 结合律 将一个 表达式 变形为 另一个 表达式 

2.4.4  习题 


所有归 纳推理 的模板 

以 下形式 的归纳 证明， 涵盖 了具有 多个依 据情况 的完全 归纳。 它还将 2.3 节中介 绍的弱 归纳作 为一种 
特例 包含 其中， 并包 含了只 有一 个依据 情况的 一般 情况。 

(1)  指定 要证明 的命题 。 声明要 通过对 《的 归纳， 证明* sU) 对 n 彡 & 为真。 指定 zQ 的值， 通常是 

0 或 1， 但 也可以 是其他 整数。 直观 地解释 《 表示 什么。 

(2)  陈述依 据情况 （ 一 个或多 个）。 这些 将是从 4 起 到某个 整数办 的所有 整数。 通常 j0=i0, 不过 j_0 
也可以 是其他 整数。 

(3)  证明 各个依 据情况 S(i0) , 对，。+1) ， …， 的0) 。 

(4)  声 明假设 负4),双4+1)， … ，釗 《) 为真 （就 是“归 纳假设 ”）， 并 要证明 +  以此来 建立归 
纳 步骤。 声明自 己在 假设? 7 彡 乂 ， 也就是 n 至少要 跟最大 的依据 情况一 样大。 通过用 n  +  1 替换 中的 
来表示 災《  +  1) 。 

(5)  在 (4) 中提到 的假设 下证明 + 1) 。 如果 归纳为 弱归纳 而不 是完全 归纳， 那么 证 明中只 需 要用到 
S(n) , 不 过用归 纳假设 中的任 一或全 部命题 都是可 以的。 

(6)  得出 Mw) 对所 有的? 7 多 4  (但不 一 定对 更小的 /?.) 都 为真。 


(1) 从表达式£^  =  (W  +  V)  +  ((>V+(X  +  >0)  +  z)中依次 “ 拉岀” 每个操 作数。 也就 是说， 从 五的每 个部分 
开始， 并使 用示例 2.8 中的技 巧将五 变形为 W  + 岑这 样的表 达式。 接着 再将石 变形为 V  + 尽 这样的 
表 达式， 以此 类推。 

(2)  使 用示例 2. 10 中的 技巧完 成以下 变形。 

(a)  将1 2 3  w  +  (x  +  (J  +  z)) 变形为 (（w  +  x)  +  _y)  +  z 。 

(b)  将 (v  +  w)  +  ((x  +  y)  +  z) 变形为 （(_y  +  w)  +  (v  +  z))  +  x 

(3) *设 五是含 +、 -、 *和/ 这几 种运算 符的表 达式， 其 中每种 运算符 都是二 元的， 也就 是说， 这些运 
算符 都接受 两个操 作数。 对 运算符 在五中 岀现的 次数进 行完全 归纳， 证明 如果五 中岀现 《 个运 算符, 
那么 五具有 „  +  1 个操 作数。 
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(4)  给 岀一个 具有交 换性但 不具结 合性的 二元运 算符。 

(5)  给 岀一个 具有结 合性但 不具交 换性的 二元运 算符。 

(6)  * 考虑运 算符全 为二元 运算符 的表达 式五。 五的 长度是 指五中 符号的 数目， 将 一个运 算符或 左边括 
号 或右边 括号记 作一个 符号， 并将任 一操作 数 （ 比如 123 或 abc) 记 作一个 符号。 证 明五的 长度肯 
定为 奇数。 提示： 通过 对表达 式五的 长度进 行完全 归纳来 证明该 声明。 

(7)  证明： 每 个负整 数都可 以写成 2a  +  36 的 形式， 其中 《 和 6 都是 整数 （不 一定 是正整 数）。 

(8) * 证明： 每 个整数 （正整 数或负 整数） 都可 以写为 5a  +  7Z> 的 形式， 其中 a 和 6 都是 整数 （不 一定是 
正整 数）。 

(9) * 弱归 纳证明 （如 2.3 节中 那些） 是否 也是完 全归纳 证明？ 完 全归纳 证明是 否也是 弱归纳 证明？ 

(10)  * 在本节 中我们 展示了 如何通 过最少 反例论 证来验 证完全 归纳。 这表 明了完 全归纳 也可通 过迭代 
来验证 。 


真相 大揭露 

在证明 程序正 确的过 程中， 存在很 多理论 上和实 践上的 困难。 一 个很明 显的问 题是： “程序 4 正确’ 
表示 什么意 思？” 正如我 们在第 1 章 中提到 过的， 多 数在练 习中编 写的程 序只满 足某些 非正式 的规范 ，这 
些规 范本身 可能是 不完整 或不一 致的。 即 便是存 在确切 的正式 规范， 我们 也可以 证明， 并 不存在 可以证 
明 任意的 程序等 同于给 定规范 的某个 算法。 

尽管存 在这些 困难， 但陈述 并证明 与程序 有关的 断言还 是有好 处的。 程序 的循环 不变式 （ loop 
invariant ) 通常 是人们 可以给 出的最 实用的 程序工 作原理 的简短 解释。 此外， 程序员 在编写 一段代 码时， 
应 该将循 环不变 式谨记 心头。 也就 是说， 程序能 正常工 作一定 是存在 某些原 因的， 而这个 原因通 常必须 
与 程序每 次 进行循 环或每 次 执行递 归 调用时 都成立 的归纳 假设相 关 。程 序员应 该能设 想出一 个证明 过程， 
即 使行逐 行把证 明 过程写 下来可 能并不 现实。 


2.5 证 明程序 的属性 

在本 节中， 我 们将深 入到这 样一个 领域： 证 明程序 能完成 它声称 能做的 工作。 在这 个领域 
中， 归纳 证明起 着举足 轻重的 作用。 我 们将看 到一项 技术， 它可以 解释迭 代程序 在进行 循环的 
过程中 在做些 什么。 如果 理解循 环在做 什么， 基 本上就 能明白 需要对 迭代程 序有哪 些了解 。在 
2.9 节中， 我们 会介绍 证明递 归程序 的属性 需要些 什么。 

2.5.1 循环 不变式 

要证明 程序中 循环的 属性， 关键 是要选 择循环 不变式 （或称 归纳断 言）， 也就 是每次 进入循 
环中某 个特定 点时都 为真的 命题又 然后通 过对以 某种方 式衡量 循环次 数的参 数进行 归纳， 证明 
该命题 & 例如， 该参 数可以 是我们 到达某 while 循环 测试的 次数， 也 可以是 for 循环中 循环下 
标 的值， 还 可以是 某个涉 及每次 循环时 都递增 1 的 程序变 量的表 达式。 

♦ 示例 2.12 

举个 例子， 我们考 虑一下 2.2 节中 SelectionSort 的内层 循环。 以下 这几行 代码带 着与图 
2-2 中 相同的 编号： 
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small  =  i ; 

for  ( j  =  i+1;  j  <  n;  j++) 
if  (A[j]  <  A  [small] ) 
small  =  j ; 


回想 一下， 这 几行代 码的目 的是使 small 等于 A  [i..n-l] 中值 最小的 元素的 下标。 要证实 该声明 
为何 为真， 考虑一 下如图 2-10 所示 的该循 环的流 程图。 该流程 图展示 了执行 该程序 必需的 5 个 步骤。 


图 2- 10  SelectionSort 内层 循环的 流程图 

(1)  首先， 需要将 small 初 始化为 /_， 如 同在第 (2) 行中 所做的 那样。 

(2)  在第 (3) 行的 for 循 环开始 的 时候， 要将: j 初始 化为 i  +  \  o 

(3)  接着， 需 要测试 是否有 j<n。 

(4)  如 果是， 就执 行有第 (4) 行和第 (5) 行组 成的循 环体。 

(5)  在 循环体 结束的 位置， 需 要递增 j， 并返回 测试的 位置。 

在图 2-10 中 看到， 在 测试之 前有一 点被标 记为循 环不变 式命题 ^a) ， 我们很 快就会 发现这 
是个什 么样的 命题。 第 一次到 达该测 试时， j 的值为 /  +  1， 而 small 的值为 第 二次到 达该测 
试时， ： j 的值是 /  +  2 ， 因为: j 已经 递增了 一次。 因为 循环体 （第 4 行和第 5 两行） 会在冲 +  1] 比邱] 
小的条 件下将 small 置为 z_  +  l ， 所以我 们看到 small 总是 邱] 和 .  +  1] 中 较小的 那个的 下标。 ® 


①为防 止出现 持平的 情况， small 应该是 不 过一般 情况下 我们会 假设不 会出现 持平的 情况， 并将 “最小 元素第 
一次 出现” 说成 “最 小的元 素”。 


2  3  4  5 
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类 似地， 当 第三次 到达测 试时， j 的值是 /  +  3， 而 small 则是 A[i  .  .  i+2] 中 最小那 个的下 
标。 因此我 们将试 着证明 看似一 般规贝 U 的如下 命题。 

命题邓 :)。 在^ :为循 环下标 j 的值 的情 况下， 如果 到达第 (3) 行的 for 声 明中对 ）<« 的测 试， 
那么 small 的 值就是 A [i.  .k-1] 中最小 元素的 下标。 

请 注意， 我们在 这里使 用字母 &来 表示 变量 j 在 循环进 行时可 能具有 的值。 这 不像用 ） 来表 
示 j 的值 那样 烦琐， 因为有 时候需 要保持 (不 变， 而同时 j 的值 又在 变化。 还要 注意， 义 幻的表 
述中有 “如 果到达 …… ”， 这是因 为某些 A 的 值比循 环下标 j 的值 更小而 使循环 中断， 所以 可能根 
本 没法到 达循环 测试。 如 果&是 这些值 之一， 那么 —定 为真， 因 为任何 “若 J 则 5”  形式的 
命题 在^为 假时都 为真。 

依据。 依据 情况是 6  =  /  +  1 ， 其中 / 为第 (3) 行 中变量 i 的值。 ® 在循环 开始时 ，有 j_  =  z_  +  l。 也 
就是说 ，我 们刚执 行完第 (2) 行 ，把 ? 赋值给 small, 并且将 j 初始 化为 /  +  1 ， 以 开始该 循环。 S(i  +  \) 
表示， small 是 A  [i. . 幻 中最小 元素的 下标， 也 就是说 small 的值 一定是 /。 从技术 上讲， 我们 
还必须 证明， 除 了第一 次到达 测试时 之外， j 的 值从不 可能是 /  +  1。 从直观 上说， 其原因 就是每 
次 进行循 环时， j 都会 递增， 所以 它再也 不会有 /  +  1 这么 小了。 （为 了精益 求精， 我们应 该在除 
了第 一次通 过测试 外都有 y  >  /  +  1 的假设 下进行 归纳证 明。） 因此， 归纳 依据邓 +  1) 被证明 为真。 

归纳。 现在 假定我 们的归 纳假设 M 幻 Xf 某些 灸 彡 /  +  1 成立， 并 证明只 A  +  1) 为真。 首先 ，如 
果灸多 《， 那么在 j 的值为 t 或更早 之前， 循 环就中 断了， 所以 肯定不 会在: j 的值 等于 A +  1 时到 
达 该循环 测试。 在 这种情 况下， S0  +  1) —定 为真。 

因此， 我 们假设 &<«， 如此 一来， 实际 上已经 进行了 j 等于 A  +  1 时的 测试。 只 幻 说的是 
small 表示 A[i.  .k-1] 中最小 元素的 下标， 而 SU  +  1) 则是说 small 表示 A [ i  .  .k] 中最 小元素 
的 下标。 如果 考虑当 j 的值 为屈寸 循环体 （第 4 行和第 5 行） 中会 发生的 事情， 就会 岀现如 下两种 
情况， 具体取 决于第 (4) 行的测 试是否 为真。 

(1)  如果 耶:] 不小于 A  [i  .  .  k-1] 中的最 小值， 那么 small 的 值不会 改变。 不过， 在 这种情 
况下， small 还 要表示 A  [i.  .k] 中最小 元素的 下标， 因为 4幻 不是最 小的。 因此， 在这 种情况 
下 sa+i) 表述 的结论 为真。 

(2)  如果 4幻 小于 到 4^-1] 这些 值的最 小值， 那么 就要将 small 置为 t  S0  +  1) 表述 
的结 论还是 成立， 因为 A 是 A  [  i  .  .  k] 中最小 元素的 下标。 

因此， 不 管哪种 情况， small 都是 A  [i..k] 中最小 元素的 下标。 我们 通过递 增变量 j 来进 
行 for 循环。 因此， 在循 环测试 之前， 当 j 的值为 A  +  1 时， S0  +  1) 表述 的结论 成立。 现 在就证 
明了由 S ⑻可 以得到 50  + 1) 。 我 们已经 完成了 归纳， 并得到 S ㈨ 对所有 k^i  +  \ 的值都 为真这 
样的 结论。 

接 下来， 应用 S ⑷来 声明第 (3) 行到第 (5) 行 的内层 循环。 当 j 的值达 到《 时， 程序会 退出循 
环。 因为 5X«) 表示 small 是 A[i  .  .n-1] 中最小 元素的 下标， 所以可 以得出 一个有 关内层 循环工 
作方式 的重要 结论。 我们会 在下一 个示例 中看看 如何利 用这个 结论。 

♦ 示例 2.13 

现在， 考 虑整个 SelectionSort 函数， 我 们在图 2-11 中 重现了 其核心 部分。 表示 这段代 
码 的流程 图如图 2-12 所示， 其中 “循 环体” 是指图 2-11 中的第 (2) 到 (8) 这 几行。 归 纳断言 r(m) 还 


①就行 (3) 到行 (5) 的循环 而言， i 是 不会改 变的。 因此 /+1 是 可用作 根据值 的合适 常数。 
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for  (i  =  0;  i  <  n-1 ;  i++)  { 
small  =  i ; 

for  (j  =  i+1;  j  <  n;  j++) 
if  (A[j]  <  A  [small] ) 


temp  =  A [small] ; 
A  [small]  =  A  [i] ; 
A  [i]  =  temp; 


是关于 在循环 终止的 测试开 始前什 么一定 为真的 命题。 通俗 地说， 就是当 i 的值为 m 时， 我们选 
中 较小的 m 个元 素， 并将它 们排序 在数组 开头的 位置。 更具 体地讲 就是， 我们要 通过对 m 的归纳 
证明以 下命题 r(m) 为真。 


图 2-11  SelectionSort 函数 的主体 


否 


图 2-12 整个选 择排序 函数的 流程图 

命题 r(m)。 如果 到达第 (1) 行中 /<«-1 的循 环测试 时变量 i 的值 等于 m， 那 么有： 

(a) A[0.  .m-1] 是 有序排 列的， 也就 是说， 40]<41]< … 

(b)  A[m.  .n-1] 的所 有元素 不小于 A [0.  .m-1] 中任一 元素。 

依据。 依据 情况是 m  =  0。 依据为 真的原 因微不 足道。 如果考 虑命题 r(0)， 那么 (a) 部分就 
是说 A  [0.  .-1] 是已排 序的。 不过在 40]、 …、 4-1] 的范围 内没有 元素， 所以 (a) —定 为真。 类 
似地， r(0) 的 (b) 部分 是说， A[0.  .n-1] 的所有 元素都 至少与 A  [0.  .-1] 中任 一元素 一样大 。由 
于后 者描述 的范围 内没有 元素， 所以 (b) 部分也 为真。 

归纳。 在 归纳步 骤中， 假设 r(m) 对 所有的 m>0 都 为真， 并 要证明 r(m  +  l) 成立。 就像在 
示例 2.12 中 那样， 我 们又要 试着证 明形如 “若靡 必” 的 命题， 而只要 4 为假， 那么 这样的 命题肯 
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scanf  (,,0/od,t ,  &n) ; 

i  =  2; 

fact  =  1; 
while  (i  <=  n)  { 
fact  =  f act*i ; 
i++； 

} 

printf  ("0/0d\n" ， fact) ; 


定 为真。 因此， 如果 “到达 for 循环 测试时 i 等于 m  +  l” 这 一假设 为假， 那么 T(m  +  1) 就 为真。 
因而 可以假 设我们 确实在 i 的值为 m  +  1 时到 达了该 测试， 也就 是说， 可 以假设 m<«-l。 

当 i 的值为 w 时， 循环体 会找岀 A[m.  .n-1] 中的最 小元素 （如 示例 2. 12 中命题 5Xm) 所证明 
的）。 在第 (6) 行至第 (8) 行中， 该元 素会与 4叫 互换。 归 纳假设 r(w) 的 (b) 部 分告诉 我们， 被选 
中的这 个元素 不小于 A[0.  .m-1] 中任 一元素 。此外 ，那 些元素 还是已 排序的 ，所 以现在 A  [i.  .m] 
中所有 元素也 是已排 序的。 这也 就证明 了命题 r(m  +  l) 的 (a) 部分。 

要证明 r(m  +  l) 的 (b) 部分， 我们 看到所 选择的 不大于 Mm+1.  .n-1] 中 的任一 元素。 
r(m) 的⑻部 分告诉 我们， A[0.  .m-1] 已经 不大于 A  [m+1.  .n-1] 中 任一元 素了。 因此， 在执行 
函 数的第 (2) 行到 第⑻行 并递增 i 后， 可知 A[m+1.  .n-1] 中所有 元素都 不小于 A [0.  .m] 中任一 
元素。 由 于现在 i 的值为 m  +  1 ， 我 们证明 了命题 r(m  +  l) 的真 实性， 所以就 证明了 该归纳 步骤。 

现在， 令 m  =  n-1 。 我们 知道， 当 i 的值为 《-1 时， 会退 出外层 循环， 所以 r(«-l) 将会在 
完 成这次 循环后 成立。 r(«-l) 的 ⑻部分 表示， A[0..n-2] 中所有 元素都 是已排 序的， 而其 (b) 
部分 则是说 不 小于其 他任何 元素。 因此， 在该 程序终 止后， A 中的 元素是 以非递 减顺序 
排 列的， 也就 是说， 它们 是已排 序的。 

2.5.2  while 循环 的循环 不变式 

在讲 到形如 

while  (<condition>) 

<body> 

的 while 循 环时， 通 常都可 以为循 环条件 测试前 的那一 点找出 合适的 循环不 变式。 一般 来说， 
我们 会试着 通过对 循环次 数的归 纳来证 明循环 不变式 成立。 然后， 当 条件为 假时， 可以 利用循 
环不 变式以 及条件 为假的 事实， 得出一 些关于 while 循环终 止后什 么为真 的有用 信息。 

不过， 与 for 循 环不同 的是， 可能不 存在为 while 循环 计数的 变量。 更糟 的是， 尽管 for 循 
环可 以保证 最多只 会迭代 到循环 的限制 （ 例如， SelectionSort 程序 的内层 循环最 多循环 《-1 
次）， 我们 却没理 由相信 while 循环的 条件可 能会变 为假。 因此， 证明 while 循环 正确性 的部分 
工 作就是 要证明 while 循环 最终会 终止。 一般 要通过 涉及程 序中变 量的某 个表达 式五， 按 照如下 
方 式一起 来证明 循环 的 终止。 

( 1 )  每进 行一次 循环， 五的 值至少 会减少 1 。 

(2)  如果 五的值 小到某 个指定 的常数 （比如 0)， 循环 条件就 为假。 

♦ 示例 2.14 

阶乘 函数， 写作 《!， 表示的 是整数 lx2x … ><«的 积。 例如， 1!  =  1,  2!  =  1x2  =  2,  51  =  1x2 
x  3  x  4  x  5  =  120。 图 2-13 所示的 简单程 序片段 就是用 来计算 ^ 彡 1 时的 《! 的。 


12  3  4  5  6  7 

/ V  / - \  / - '  / - '  / - V.  / - \ / - V 


图 2-13 阶乘程 序片段 
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首先， 要 证明图 2-13 中第 (4) 行至第 (6) 行的 while 循环 一定会 终止。 这里 我们选 择的表 达式五 
是 请 注意， 每进 行一次 while 循环， i 的 值在第 (6) 行 会增加 1， 而 27 的值 则保持 不变。 因此， 
每进 行一次 循环， E 的值就 会减少 1。 此外， 当五 的值为 -1 或更 小时， 有《-/<-1， 或 者说是 
/彡《  +  1。 因此， 当五 变为负 值时， 循 环条件 就不再 成立， 循 环就将 终止。 一 开始并 不知道 
M 多大， 因为不 知道要 读人的 n 值为 多少。 不过， 不管 该值为 多少， 五 最终都 能小到 -1， 而循 
环将会 终止。 

现 在必须 证明图 2-13 中 的程序 能够完 成它应 该做的 工作。 合适的 循环不 变式命 题如下 ，我 
们 要通过 对变量 i 的值的 归纳来 证明该 命题。 

命题只 7_)。 如果在 到达循 环测试 时变量 i 的值为 /_， 那 么变量 fact 的 值就是 C/-1)!。 

依据。 归纳 依据是 M2)。 只 有当从 外部进 入该循 环时， 在 到达该 测试时 i 的值 才为 2。 在循 
环开 始前， 图 2-13 中的第 (2) 行和第 (3) 行会将 fact 的 值置为 1， 并将 i 的值 置为 2。 由于 1  =  (2-1)! ， 
所以 归纳依 据得到 证明。 

归纳 。假 设只 /) 为真， 并证明 5(y  +  l) 为真。 如果/ >« ，那 么当 i 的值为 /或更 早之时 ，该 while 
循 环就中 断了， 因此当 i 的值为 ）+  1 时 ，我 们根本 无法到 达该循 环测试 。在 这种情 况下， 50+1) 
为 平凡真 （trivially true), 因为 它具有 “ 如果我 们到达 …… ” 这种 形式。 

因此， 假设 / 彡 《， 并考虑 一下在 i 的值为 /时， 执行 while 循环的 循环体 会发生 什么。 通过 
归纳 假设， 在第 (5) 行 被执行 之前， fact 的值为 (y-1)! ， 而 i 的值为 /。 因此， 在第 (5) 行执 行完之 
后， fact 的值为 yx(y-i)! ， 也就是 yu 

在第 ⑹行， i 增加了  1, 其值就 达到了  7’  +  1。 因此， 当 i 带着值 y  +  1 到达该 循环测 试时， fact 
的值是 y!。 命题从 /  +  1) 就是 说， 当 i 等于 J  +  1 时， fact 等于 (C/  +  l)-l)!， 也就是 因此 ，我 
们证明 了命题 SC/  +  1)， 并完成 了归纳 步骤。 

之 前已经 证明了 while 循环将 终止。 由此 可见， 它将在 i 第一次 具有大 于《 的值 时终止 。因 
为 i 是整 数， 而 且每进 行一次 循环就 会增加 1， 所以 i 在循 环终止 时的值 一定是 《  +  1。 因此 ，当 
到达第 (7) 行时， 命题 ^0  +  1) —定 成立。 不过 该命 题表示 fact 的值为 《!。 因此， 程序会 打印出 
n\, 正 如我们 想要证 明的。 

作为一 个实际 问题， 应该 指出， 图 2-13 中 的阶乘 程序在 任何计 算机上 都只能 打印出 少量几 
个 ^ 的阶乘 值〃! 作为 答案。 因 为阶乘 函数增 长得特 别快， 答案 的大小 很快就 超过了 现实中 任何一 
台 计算机 上整数 的最大 大小。 

2.5.3  习题 

(1)  以下 程序片 段会让 sum 的值 等于从 1 到 n 的整数 之和， 为 其找岀 合适的 循环不 变式。 

scanf  (,,0/odn ，&n) ; 

sum  =  0; 

for  (i  =  1;  i  <=  n;  i++) 
sum  =  sum  +  i ； 

通过对 / 的归 纳证 明找岀 的循环 不变式 成立， 并 利用它 证明程 序可按 照预期 工作。 

(2)  以下 程序片 段可计 算数组 A  [0..n-l] 中 各整数 之和： 

sum  =  0; 

for  (i  =  0;  i  <  n;  i++) 
sum  =  sum  +  A [i] ; 

为 其找岀 合适的 循环不 变式， 利用 该循环 不变式 证明程 序可按 照预期 工作。 
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(3)  *考 虑如下 片段： 

scanf  (,,0/odn  ,  &n) ; 
x  =  2; 

for  (i  =  1 ;  i  <=  n;  i++) 
x  =  x  *  x; 

对应 /  < « 的 测试之 前那点 的 合适循 环不变 式会满 足如下 条件： 如果 我们到 达该点 时变量 i 的 
值为 t 那么有 x  =  22M。 通过对 A 的归 纳， 证明该 不变式 成立。 在 循环终 止后， x 的值是 多少？ 

(4)  * 图 2-14 中的 程序片 段会持 续读人 整数， 直 到读到 负整数 为止， 然后会 打印岀 这些整 数的和 。为 
循环 测试之 前的那 点找岀 合适的 循环不 变式， 利用该 不变式 证明该 程序片 段可按 照预期 工作。 


sum  =  0; 
scanf  (,,0/0dM 

Sex') ; 

while  (x  >= 

0)  { 

scanf  (,,0/0dn ， &x) ; 

> 

图 2-14 为一 列整数 求和， 通 过负整 数来终 止循环 

(5)  考虑图 2-13 所示程 序中的 n, 找岀自 己的计 算机能 处理的 《 的最 大值。 定长整 数对证 明程序 的正确 
有什么 影响？ 

(6)  通 过对图 2-10 中 程序循 环的次 数进行 归纳， 证明在 第一次 循环后 j>i  +  \0 

2.6 递 归定义 

在递 归定义 （或 归纳 定义） 中， 我 们用一 类或多 类紧密 相关的 对象或 事实本 身来对 它们进 
行 定义。 这 种定义 一定不 能是无 意义的 ，比如 “某个 部件是 某个有 某种颜 色的部 件”， 也 不能是 
似是 而非的 ，比如 “ 当且仅 当某事 物不是 glotz 时 它才是 glotz”。 归 纳定义 涉及： 

(1)  一 条或多 条依据 规则， 在 这些规 则中， 要定 义一些 简单的 对象； 

(2)  — 条或多 条归纳 规则， 利 用这些 规则， 通 过集合 中较小 的对象 来定义 较大的 对象。 

♦ 示例 2.15 

在 2.5 节中我 们通过 迭代算 法定义 了阶乘 函数： 将 lx2x … x 〃相 乘得到 《!。 其实， 还 可以按 
照 以下方 式递归 地定义 《! 的值。 

依据。 1!  =  10 
归纳。 n\  =nx  («-l)!0 

例如， 依据告 诉我们 1!  =  1。 这样 就可以 在归纳 步骤中 使用该 事实， 得到 《  =  2 时 

2!  =  2xl!  =  2xl  =  2 

对 《=3、 4 和 5， 有 


3!  =  3x2!  =  3x2  =  6 
4!  =  4  x  3!  =  4  x  6  =  24 
5!  =  5  x  4!  =  5  x  24  =  120 

等等。 请 注意， 虽 然术语 “ 阶乘” 看 起来就 是用自 身来定 义的， 但在实 践中， 可 以只通 过值较 
小的 n 的阶 乘， 得到 值逐步 增大的 〃对应 的〃! 的值。 因此， 我们具 备了有 意义的 “ 阶乘” 定义。 
严格 地讲， 应该 证明， 《! 的递归 定义可 以得出 与原来 的定义 相同的 结果， 
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行! =lx2x".xn 

要 证明这 一点， 就要证 明如下 命题。 

命题* S(«)。 按照上 述方式 递归地 定义的 《!， 等于 lx2x … x«。 

通过对 《 的归纳 来完成 证明。 

依据。 S ⑴显然 成立。 递归 定义的 依据告 诉我们 1!  =  1， 而且 lx … xl  ( 即 “从 1 到 1” 这些 
整数 的积） 的 积显然 也等于 1。 

归纳。 假设 成立， 也就 是说， 由递 归定义 给岀的 《! 等于 lx2x … x«。 而 递归定 义告诉 

我们 

(n  +  V}\  =  (n  +  l)xn\ 

如 果应用 乘法交 换律， 就有 

(«  +  l)!  =  «!x(>  +  l)  (2.11) 

由 归纳假 设可知 

n\  =  lx2x^*xn 

因此， 可以用 lx2x … ><«替 换等式 (2.11) 中的 《!， 就可 以得到 


(n  + 1) !  =  1  x  2  x  … x  n  x  (n  + 1) 

这 也就是 命题妳 +  1) 。 这样 就证明 了归纳 假设， 并证 明了对 《! 的递归 定义与 迭代定 义是相 同的。 

图 2-15 显 示了递 归定义 的一般 本质。 它 在结构 上与完 全归纳 类似， 都含 有无限 的实例 序列， 
每 个实例 都依赖 于之前 的任一 或所有 实例。 我们通 过应用 一个或 多个依 据规则 开始。 接 下来的 
一轮 归纳， 要对已 经得到 的内容 应用一 条或多 条归纳 规则， 从而建 立新的 事实或 对象。 再接下 
来 的一轮 归纳， 再次 对已经 掌握的 内容应 用归纳 规则， 获 得新的 事实或 对象， 以此 类推。 


在定 义阶乘 的示例 2.15 中， 我 们从依 据情况 得到了  1! 的值， 应 用一次 归纳步 骤得到 2!， 应用 
两次 归纳步 骤得到 3!， 等等。 这 里的归 纳具有 “ 普通” 归纳的 形式， 在每一 轮的归 纳中， 都只 
用到 在前一 轮归纳 中得到 的 内容。 

♦ 示例 2.16 

在 2.2 节中， 定义 了词典 顺序的 概念， 当时 的定义 是具有 迭代性 质的。 粗略 地讲， 通 过从左 
起 比较对 应符号 c 用 测试 字符串 9"'是 否先于 字符串  < …之， 直 到找到 某个值 / 令 c,  ， 
或者到 达其中 一个字 符串的 结尾。 以下 的递归 定义定 义了字 符串对 w 和 X， 其中 w 在词典 顺序上 
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要先于 x。 从直观 上讲， 要对两 个字符 串从开 头起相 同字符 对的数 目进行 归纳。 

依据。 该依据 涵盖了 那些我 们能立 即分岀 字符顺 序先后 的字符 串对。 依据 包含如 下两个 部分。 

(1)  对任 何不为 e 的字 符串 w， 都有 e<w。 回想 一下， e 表 示空字 符串， 也就是 不含字 符的字 
符串。 

(2)  如果 c<c/， 其中 C 和 6 /都是 字符， 那么 对任何 字符串 W 和 X， 都有 cw<c^。 

归纳。 如果 字符串 W 和 X 具有 w<  X 的 关系， 那 么对任 意字符 C， 都有 cw<cx。 

例如， 可 以使用 以上定 义表明 base  <  batter。 根 据依据 的规则 (2)， 有0  =  3， d  =  t,  w=e, 
x  =  tter , 因此有 se<tter。 如 果应用 递归规 则一次 ， 有0  =  8,  w  =e, 以及; c  =  tter。 最后， 
第 二次应 用递归 规则， 有£=]3， w=ase, 以及 x  =  atter。 也就 是说， 依据 和归纳 步骤是 如下这 
样的： 

se  <  tter 

ase  <  atter 

base  <  batter 


还可 以按照 以下方 式证明 bat  <  tter。 依据 的部分 (1) 告诉我 们， e  <  ter。 如 果应用 递归规 
则 3 次， 其中 c 依次 等于 t、 a 和 b， 就 可以进 行如下 推理： 

e  <  ter 

t  <  tter 

at  <  atter 

bat  <  batter 

现 在应该 对两个 字符串 从左端 起相同 的字符 数进行 归纳， 证明 当且仅 当字符 串按照 刚给出 
的递归 定义排 在前面 之时， 才 能按照 2.2 节中 的定义 得岀它 也排在 前面的 结论。 我 们还留 了两个 
归纳 证明的 习题。 

在示例 2.16 中， 如图 2-15 所示 的事实 组是很 大的。 依据情 况给岀 了所有 w<x 的 事实， 不管 
是 w=e， 还是 w 和 X 以不 同字符 开头。 使用归 纳步骤 一次， 就 给出当 w 和 x 只有 第一个 字母相 同时， 
所有 w<x 的 情况； 第二次 使用， 就 给岀了 那些当 w 和 x 只有前 两个字 母相同 时的所 有情况 ，以 
此 类推。 

2.6.1  表达式 

各种 算术表 达式是 递归定 义的， 我们 为这种 定义的 依据指 定了原 子操作 数可以 是什么 。例 
如， 在 c 语言 中， 原子操 作数既 可以是 变量， 也 可以是 常量。 然后， 归纳 过程告 诉我们 可应用 
哪些运 算符， 以及 每个运 算符可 以应用 到多少 个操作 数上。 例如， 在 c 语言 中， 运算符 < 可以 
应 用到两 个操作 数上， 运 算符符 号-可 以应用 于一至 两个操 作数， 而 由一对 圆括号 加上括 号内必 
要数 量的逗 号表示 的函数 应用运 算符， 则可以 应用于 一个或 多个操 作数， 比如 /(% ，…， 

♦ 示例 2.17 

通常 将如下 的表达 式称作 “算 术表达 式”。 

依据。 以下 类型的 原子操 作数是 算术表 达式： 

(1) 变量； 

⑺ 整数； 

(3) 实数。 

归纳。 如果 五1 和 五2 是 算术表 达式， 那么以 下表达 式也是 算术表 达式： 

(1)  (  e,+e2  ) 
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(2)  Ur 五 2) 

(3)  (ExxE2) 

(4)  (E^) 

运算符 +、 -、 x 和 / 都是 二元运 算符， 因为它 们都接 受两个 参数。 它 们也叫 作中缀 （插 入） 
运算符 （inflx  operator), 因为 它们出 现在两 个参数 之间。 

此外， 我们 允许减 号在表 示减法 之外， 还 可以表 示否定 （符 号改 变)。 这种可 能性反 映在了 
第 5 条， 也是最 后一条 递归规 则中： 

(5)  如 果五是 算术表 达式， 那么 (- 五) 也是。 

像规则 (5) 中的- 这样只 接受一 个操作 数的运 算符， 称为 一元运 算符。 它 也称为 前缀运 算符， 
因为 它出现 在参数 之前。 

图 2-16 展示 了一些 算术表 达式， 并解释 了为什 么它们 都是表 达式。 请 注意， 有时候 括号是 
不必 要的， 可以 忽略。 比如图 2-16 中 最后的 表达式 (vi) ， 外层 括号和 表达式 -0  +  10) 两 侧的括 
号都是 可以忽 略的， 而我们 可以将 其写为 y-(JC  +  10)。 然而， 剩下的 括号是 必不可 少的， 因为 
yx-x  +  10 按照约 定会被 解释为 0；x-x)  +  10 ， 这就不 是与: fx -(>  +  10) 等 价的表 达式了 （例 如， 
试试 J  =  1 和 x  =  1  )。 ① 


(i)  x 

依 据规则 (1) 

⑻ 10 

依 据规则 (2) 

(iii)  (x  +  10) 

对 (i) 和⑻应 用递归 规则⑴ 

(iv)  (-(x  +  10)) 

对 (iii) 应用递 归规则 ⑶ 

(v)  7 

依 据规则 (1) 

(vi)  (}x(— (x  +  10))) 

对⑺和 (iv) 应用递 归规则 (5) 

图 2- 16  — 些算术 表达式 7K 例 


更 多运算 符术语 

出现在 其参数 之后的 一元运 算符， 比如 表达式 《! 中的阶 乘运算 符!， 称 为后缀 运算符 。如 
果接 受多个 操作数 的运算 符重复 地出现 在其所 有参数 之前或 之后， 那么它 们也可 以是前 缀或后 
缀运 算符。 在 C 语言 或普 通算术 中没有 这类运 算符的 例子， 不过 我们在 5.4 节中将 要讨论 一些所 
有 运算符 都是前 缀或后 缀运算 符的表 示法。 

接受 3 个参数 的运算 符就是 三元运 算符。 举例 来说， 在 C 语言 中， 表示 “若 c 则 X， 否则 /’ 
的 表达式 c?x:y 中， 运 算符？ ：就是 三元运 算符。 如 果运算 符接受 &个 参数， 就 称其是 &元 的。 


2.6.2 平衡 圆括号 

可 以岀现 在表达 式中的 圆括号 串称为 平衡圆 括号。 例如， 在图 2-16 的 表达式 (vi) 中 岀现的 
((())) 模式， 以 及如下 表达式 


①如 果运算 符约定 俗成的 优先级 （一元 的减号 优先级 最高， 接着是 乘号和 除号， 再接 着是加 号和减 号）， 以 及“左 
结 合性” 的传 统约定 （即 优先级 相同的 运算符 一 比如一 串加号 和减号 一一 从左 边开始 结合） 已 经暗示 了括号 
的 存在， 那 么括号 就是多 余的。 不管是 C 语言 还是 普通的 算术， 都遵 守这些 约定。 


2.6  递 归定义  51 


((a  +  6)x((c  +  d)-e)^ 

具有的 (Oft)》 模式。 空 字符串 e 也是平 衡圆括 号串， 例如， 它的 模式是 表达式 X。 一 般来说 ，判 
定圆括 号串平 衡的条 件是， 每 个左圆 括号都 能与其 右侧的 某个右 圆括号 配对。 因此， “平 衡圆括 
号串” 的一般 定义由 以下两 个规则 组成： 

(1)  平 衡圆括 号串中 左圆括 号和右 圆括号 的数量 相等； 

(2)  在沿 着括号 串从左 向右行 进的过 程中， 该串 的量变 从不为 负值， 其 中量变 （profile) 是 
对行进 过程中 已达到 左括号 数目减 去已到 达右括 号数目 的累 计值。 

请 注意， 统计值 必须从 0 开始， 以 0 结束。 例如， 图 2-17a 表 示的是 (0(()》 的 量变， 而图 2-17b 表 
示的是 0(0)() 的 量变。 


3 

2 


0  ( ( ) ( ( ) ) ) 

(a)  (()(())) 的量变 

2  - 


0  ( ) ( ( ) ) ( ) 

(b) ()(())() 的量变 

图 2- 17 两个 括号串 的量变 

“ 平衡圆 括号” 的概念 有着多 种递归 定义。 下 面的定 义比较 巧妙， 不过 我们将 证明， 该定义 
相当 于之前 提到的 涉及统 计值的 非递归 定义。 

依据。 空字符 串是平 衡圆括 号串。 

归纳。 如果 和；; 是平 衡圆括 号串， 那么 (xXy 也是平 衡圆括 号串。 

♦ 示例 2.18 

由依据 可知， e 是平 衡圆括 号串。 如果应 用递归 规则， 其中 jc 和: f 都等于 e， 就可 以得出 () 是平 
衡的。 请 注意， 在将 空字符 串提交 给变量 （如 x 或 y) 时， 该 变量就 “消失 ”了。 然后可 以按以 
下 方法应 用递归 规则。 

(1)  X  —  =  6 , 得岀 (()) 是平 衡的。 

(2) x  =  e 且 7  =  ()， 得出 (X) 是平 衡的。 

(3) x=y=(), 得岀 (())() 是平 衡的。 

最后， 因 为已知 (()) 和 ()() 是平 衡的， 所以 可以令 递归规 则中的 JC 和;; 为这 两者， 就 证明了 
((()))()() 是平 衡的。 

可以证 明两种 “ 平衡” 定 义指定 的是同 一组括 号串。 为了让 表述更 清楚， 我 们将根 据递归 
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定义 定义的 平衡括 号串直 接称为 平衡括 号串， 而将根 据非递 归定义 定义的 平衡括 号串称 为量变 
平衡括 号串。 量 变平衡 括号串 就是那 些量变 最终为 0 而且从 不为负 值的括 号串。 需要证 明以下 
两点。 

(1)  每个平 衡括号 串都是 量变平 衡的。 

(2)  每个量 变平衡 括号串 都是平 衡的。 

这就是 下面两 个示例 中归纳 证明的 目标。 

♦ 示例 2.19 

首先， 我们 来证明 (1) 部分， 也就是 每个平 衡括号 串都是 量变平 衡的。 这段证 明复制 了定义 
平衡 括号串 所使用 的完全 归纳。 也就 是说， 我 们要证 明如下 命题。 

命题 负《)。 如果 括号串 W 是通过 《 次应用 递归规 则被定 义为平 衡的， W 就是 量变平 衡的。 

依据。 依据为 《  =  0。 不需 要通过 应用任 何递归 规则便 可证明 其平衡 的括号 串就是 6, 它的 
平衡是 由依据 规则得 岀的。 由此 可见， 空 字符串 的量变 最终为 0, 而且 从不为 负值， 所以 e 是量 
变平衡 的。 

归纳。 假设 ^ ⑺对 /  =  0,1, 《 为真， 并考虑 M/7  +  1) 的 实例， 也就是 说证明 W 为平 衡括号 
串需要 《  +  1 次使 用递归 规则。 考虑 最后那 次递归 规则的 使用， 就是 拿两个 已知为 平衡的 括号串 X 
%, 组 成形为 CxXy 的 W。 我们 使用了 《  +  1 次递 归规则 来形成 W, 而 且最后 一次利 用递归 规则既 
不是用 来形成 x, 也 不是用 来形成 y。 因此， 形成 X 和 j； 都 不需要 利用递 归规则 《 次 以上。 所以 ，归 
纳假 设可以 应用于 X 和 ;；， 而且可 以得岀 X 和 都是 量变平 衡的。 

w 的量 变如图 2-18 所示。 它首先 会上升 一级， 作为 对第一 个左圆 括号的 回应。 接着是 x 的量 
变， 由虚线 所示， w 的 量变在 这里会 再上升 一级。 我 们使用 归纳假 设得岀 x 是量 变平 衡的， 因此， 
它 的量变 始于第 0 级且 终于第 0 级， 而 且从不 为负。 如图 2-18 所示， 由于 w 的量 变中 X 的部 分已经 
上升了 一级， 该部 分从第 1 级 开始， 在第 1 级 结束， 而且 从来不 低于第 1 级。 


•X •的 量变 


的量变 


图 2- 18 构造 w  =  (xXy 的量变 

显式 岀现在 X 和 j； 之间 的右圆 括号将 w 的量 变降为 0。 接着 就到了 的 量变。 根 据归纳 假设， 

是 量变平 衡的， 因此在 w 的量 变中， 的 部分不 会低于 0, 而 且它让 w 的 量变最 终归于 0。 

我们现 在已经 构造了 w 的量 变， 并发 现它满 足量变 平衡括 号串的 条件。 也就 是说， w 的量变 
从 0 开始， 以 0 结束， 并且 从不为 负值。 这 样就证 明了， 如 果括号 串是平 衡的， 那 么它就 是量变 
平 衡的。 

现 在介绍 “ 平衡圆 括号” 两种 定义等 价性的 第二个 方向。 在示例 2.20 中， 将 要证明 量变平 
衡 的括号 串是平 衡的。 
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对递 归定义 的证明 

请 注意， 在示例 2.19 中， 通 过对递 归规则 （用来 证实某 对象在 定义的 类中） 的使用 次数进 
行 归纳， 证 明了与 一类递 归定义 的对象 （平 衡圆括 号串） 有关的 断言。 这 是处理 递归定 义概念 
的一 种常见 方法， 其实 也是递 归定义 很实用 的原因 之一。 在示例 2. 15 中， 通过对 《 的归纳 ，证 
明了递 归定义 的阶乘 值的属 性（ 即《! 就是 1 到 《这《 个整 数的 积）。 而在对 《! 的定 义中， 使用 了  /7-1 
次递归 规则， 所 以该证 明过程 也可视 作对递 归规则 应用次 数进行 归纳。 


♦ 示例 2.20 

现在 来证明 (2) 部分， 通 过对圆 括号串 的长度 进行完 全归纳 ，由 “量变 平衡” 得出 “平 衡”。 
正式 的命题 如下。 

命题* S(«)。 如果 长度为 〃的圆 括号串 w 是量 变平 衡的， 那么它 也是平 衡的。 

依据。 如果〃  =  0, 那么该 括号串 一定是 e。 由 递归定 义的依 据可知 e 是平衡 的。 

归纳。 假设 长度小 于等于 〃的 量变平 衡括号 串是平 衡的。 必须证 明以〃 +1) 为真， 也 就是要 
证明 长度为 《  +  1 的量 变平衡 括号串 也是平 衡的。 ® 考虑这 样一个 括号串 w: 因为 w 是量 变平 衡的， 
它不可 能以右 圆括号 开头， 否则 它的量 变会立 刻变为 负值。 因此， w 是 以左圆 括号开 始的。 

将 w 分为两 部分。 第一 部分从 w 的开头 开始， 到 w 的量 变第一 次变为 0 截止。 第二部 分就是 w 
中 其余的 部分。 例如， 图 2-17a 所 示的量 变第一 次变为 0 是 在其末 尾处， 所 以如果 w  =  ， 那 

么 第一部 分就是 整个括 号串， 而 第二部 分就是 e。 在图 2-17b 中， w  =  ()(())()， 那么 第一部 分就是 
()， 而第二 部分是 (0)()。 

第一 部分永 远不可 能以左 圆括号 结尾， 因 为如果 那样， 那 么在结 尾之前 的那个 位置， 量变 
就为负 值了。 因此， 第一部 分以左 圆括号 开始， 并以右 圆括号 结尾。 这样就 可以将 w 写为 (xXy 的 
形式， 其中 00 是第一 部分， 而 7 是第二 部分。 X 和 都要比 w 短， 所以 如果可 以证明 它们是 量变平 
衡的， 就可以 利用归 纳假设 推出它 们是平 衡的。 然后可 以使用 “ 括号串 平衡” 定 义中的 递归规 
则 来证明 w  =  (x)y 是平 衡的。 

很容易 看出， 少 是 量变平 衡的。 图 2-18 还 说明了 w、 X 和 的量变 之间的 关系。 也就 是说， 少的 
量变是 w 的量 变的 尾部， 开 始和结 束的高 度都是 0。 因为 w 是量 变平 衡的， 所以 可以得 岀结论 ： 
也是 量变平 衡的。 证明 x 是量 变平衡 括号串 的过程 也几近 相同。 x 的 量变是 w 的量 变的 一部分 ，它 
的起 止高度 都是第 1 级， 而且 x 的量变 也从未 低于第 1 级。 可 以知道 w 的量 变在 X 这 一段从 未到过 0, 
因为我 们选取 (X) 作为 w 的最短 前缀， 而在它 结尾处 w 的量变 才回到 0。 这样， w 内的 X 的量 变从未 
到过 0， 所以 x 本身的 量变从 未变为 负值。 

现 在已经 证明了 JC 和 y 都是 量变平 衡的。 因为它 们都比 w 短， 所以归 纳假设 适用于 它们， 它们 
都是平 衡的。 定义 “ 括号串 平衡” 的 递归规 则告诉 我们， 如果 x 和 都是平 衡的， 那么 (xXy 也是 
平 衡的。 而 w  =  所以 w 也是平 衡的。 我们现 在完成 了归纳 步骤， 并证明 了命题 对所 

有的 《 彡 0 都 成立。 


①请 注意， 所 有的量 变平衡 括号串 都刚好 是偶长 度的， 所以， 如果 《  +  1 为 奇数， 就 不作说 明了。 不过， 在 证明中 
不需要 《为 偶数。 
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2.6.3  习题 

(1) * 证明： 示例 2.16 中给岀 的词典 顺序的 定义和 2.2 节中给 岀的定 义是相 同的。 提示： 证明由 两部分 
组成， 每 个部分 都要通 过归纳 法进行 证明。 对 第一个 部分， 假设根 据示例 2.16 的定义 有^<1。 通 
过对 啲归纳 证明如 下命题 如) 为真： “如 果证明 >v<x 需 要应用 欠递 归规则 ，那 么根据 2.2 节 中‘词 
典 顺序’ 的定 义有， w 先于 X。 ” 依据 情况为 /  =  0。 该 习题的 第二部 分是要 证明， 如 果根据 2.2 节 
中 词典顺 序的定 义有， W 先于 X， 那么根 据示例 2. 16 中的定 义有， w<x  , 这 里要对 w 和 x 从开 头起不 
间 断的相 同字母 数进行 归纳。 

(2)  画岀 以下圆 括号串 的量变 曲线。 

⑻ (0(0) 

(b)  ()())(() 

(c)  ((()())()()) 

(d)  (()(()(()))) 

哪些是 量变平 衡的？ 对 那些量 变平衡 的圆括 号串， 使用 2.6 节 中的递 归定义 证明它 们是平 衡的。 

(3) * 证明： 每个 平衡圆 括号串 （按照 2.6 节中 的递归 定义） 都是某 个算术 表达式 中的圆 括号串 （见介 
绍算 术表达 式定义 的示例 2.17) 。 提 示：对 “ 平衡圆 括号” 定 义中的 递归规 则在构 建某给 定平衡 
圆 括号串 的过程 中被使 用的次 数进行 归纳， 以 证明该 命题。 

(4)  说 岀以下 C 语言运 算符是 前缀、 后 缀还是 中缀运 算符， 以及 它们是 一元、 二 元还是 A 元 U>2  ) 运 
算符。 

(a)  < 

(b)  & 

(c)  % 

(5)  如 果熟悉 UNIX 的文件 系统或 类似的 系统， 请对可 能的目 录 / 文件 结构给 岀递归 定义。 

(6)  * 某整 数集合 ^可 通过以 下规则 递归地 定义。 

依据。 0 在 S 中。 

归纳。 如果 / 在 S 中， 那么 z_  +  5 和 /  +  7 也在 5 中。 

(a)  不在 S 中的 最大 整数是 多少？ 

(b)  设/是 (a) 小题的 答案。 证明： 不小于 _/_  +  7 的整 数都在 S 中。 提示： 要注 意到这 一题与 2.4 节习题 
中第 (8) 小题的 相似性 （ 虽 然在这 里我们 只处理 非负整 数）。 

(7)  * 通过对 位串 长度的 归纳， 递 归地定 义偶校 验位串 集合。 提示： 最好 同时定 义偶校 验位串 和奇校 
验位串 这两个 概念。 

(8)  * 可以 按照以 下规则 定义已 排序整 数表。 

依据。 由一个 整数组 成的表 是已排 序的。 

归纳。 如果已 排序表 Z 的最 后一个 元素是 a， 而且 6 彡 《， 那么 Z 后加上 6 也 是已排 序表。 

证明： 如上所 述的对 “已排 序表” 的 递归定 义与之 前对已 排序表 的非递 归定义 （即 由整数 
& 彡 fl2 彡…彡 组 成的表 是已排 序表） 是等价 的。 

请 记住， 这里需 要证明 (a)、 （b) 两个 部分。 （a) 如 果由递 归定义 得岀表 是已排 序的， 那么根 据非递 
归定 义它也 是已排 序的； （b) 如果 表由非 递归定 义可知 是已排 序的， 那 么根据 递归定 义它也 是已排 
序的。 ⑻ 部 分可以 对递归 规则的 使用次 数进行 归纳， 而 (b) 部分则 可以对 表的长 度进行 归纳。 

(9) ** 如图 2-15 所示， 每当 我们给 岀递归 定义， 就 可以按 照生成 对象的 “ 轮次” （也 就是为 得到对 
象而应 用归纳 步骤的 次数） 为 已定义 的对象 分类。 在示例 2.15 和示例 2.16 中， 描述 每一轮 生成的 
结果是 相当简 单的。 有 时这项 工作却 更具挑 战性。 请问该 如何刻 画以下 两种情 况中第 n 轮生 成的 
对象？ 

⑻ 如示例 2.17 中 描述的 算术表 达式。 提示： 如果 熟悉第 5 章 要介绍 的树， 可以 考虑表 达式的 树表示 
(b) 平 衡圆括 号串。 请 注意， 示例 2.19 中所 描述的 “ 递归规 则应用 次数” 与找 岀圆括 号串的 轮次是 
不 同的。 例如， （())() 使用了 3 次递归 规则， 但是 在第二 轮被找 岀的。 
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2.7 递 归函数 

递 归函数 是那些 在自己 的函数 体中被 调用的 函数。 这种 调用通 常是直 接的， 例如， 函数 f 
在它 自己中 包含对 f 的调 用。 不过， 有时 候这种 调用也 会是间 接的， 比如， 某函数 A 直接调 用函 
数 巧， 巧又直 接调用 巧， 等等， 直 到该调 用链中 的函数 八调用 A。 

人们通 常有这 样一种 看法， 就是学 习迭代 编程， 或者 说使用 非递归 的函数 调用， 要 比学习 
递归 编程更 容易。 诚然， 我 们不能 完全否 定这种 观点， 但我们 相信， 只要 大家有 机会对 递归编 
程加以 练习， 那么它 其实也 是很简 单的。 递归 程序往 往比等 效的的 迭代程 序更简 洁且更 易于理 
解。 更重要 的是， 比 起迭代 程序， 某些问 题更容 易被递 归程序 击破。 ® 


说几句 实在话 

使用递 归存在 潜在的 缺点， 即在 某些计 算机上 对函数 的调用 会非常 费时， 因 而与解 决同样 
问 题的迭 代程序 相比， 递归程 序可能 会耗时 更多。 不过， 在很多 现代化 的计算 机上， 函 数调用 
是 非常高 效的 ，所以 反对使 用递归 程序 的 这一理 由 已变得 不那么 重要。 

即便 是在函 数调用 机制 较 慢的计 算 机上， 人们 也可以 对程序 进行剖 析 ，看看 程序 的 各个部 
分 分别花 了多少 时间。 然 后就可 以重新 编写程 序中占 用大部 分运行 时间的 部分， 如有必 要就用 
迭 代替代 递归。 这样 一来， 除了 速度是 最关键 因素的 一小部 分代码 之外， 程序的 大半部 分都能 
利用 递归。 


通常 可以通 过模仿 待实现 程序的 规范中 的递归 定义， 来设 计递归 算法。 实现 递归定 义的递 
归函 数将含 有一个 依据部 分与一 个归案 部分。 依据部 分一般 会检查 可由定 义的依 据解决 的简单 
输入 （不 需要 递归调 用）。 函数 的归纳 部分则 需要一 次或多 次对其 本身进 行递归 调用， 并 实现定 
义 的归纳 部分。 下面 的例子 应该能 说明这 几点。 

♦ 示例 2.21 

图 2-19 给岀 了计算 某个非 负整数 《 的阶乘 值〃！ 的递归 函数。 该 函数直 接转换 了示例 2.15 中 
对 W 的递 归定义 。也就 是说， 图 2-19 的第 (1) 行依据 情况与 归纳情 况进行 了区分 。我 们假设 《彡1 ， 
所以第 (1) 行 的测试 其实就 是在问 是否有 《  =  1。 如 果是， 我们 就在第 (2) 行应 用依据 规则， 得到 
1!  =  1。 如果 《>1， 就在第 (3) 行 应用归 纳规则 《!  =  «x(n-l)!。 


int 

fact (int  n) 

{ 

(1) 

if  (n  <=  1) 

(2) 

return  1 ;  /* 依据  */ 

else 

(3) 

> 

return  n*f act (n-1)  ;  /* 归纳 */ 

图 2-19 计算 n 彡 1 时 n! 的递 归函数 


①这样 的问题 往往涉 及某种 查找。 例如， 在第 5 章中我 们会看 到一些 查找树 的递归 算法， 这些 算法没 有方便 的迭代 
模拟 （ 虽然 也存在 使用栈 的等价 迭代算 法)。 
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例如， 如果我 们调用 fact  ( 4 ) ， 结果就 会调用 fact  ( 3  ) ， 然 后调用 fact  (2) ， 再调用 
fact  (l)o 至此， fact  (1) 会 应用依 据规贝 lj， 因为 这里有 《彡1， 并为 fact  ( 2  ) 返回值 1。 这次 
对 fact 的调 用在 第⑶行 完成 ，返回 2 给 fact  (3  ) 。接 着， fact  (3) 返回 6 给 fact  (4) ，而 fact  (4) 
最后 会在第 (3) 行返回 24 作为 答案。 图 2-20 表示 了这些 调用和 返回的 模式。 


调用 1 

t 返回 24 

fact  ( 4 ) 

fact ( 4 ) 

调用 I 

t 返回 6 

fact  ( 3 ) 

fact ( 3 ) 

调用 1 

t 返回 2 

fact (2 ) 

fact  ( 2 ) 

调用 ^ 

t 返回 1 

fact  ( 1 ) 

图 2-20 调用 fact  (4) 所带来 的调用 和返回 


防 御性程 序设计 

图 2- 1 9 中的 程序 说明了 很 重要的 一点， 即编写 递归程 序时要 注意不 让它们 陷入无 限的调 
用。 我们 可 能暗自 假设 不会以 小于 1 的参数 来调用 fact。 当然， 最好的 做法是 在调用 fact 之前 
测试 是否有 《彡1 ， 如果 《 不满 足这个 条件就 打印错 误消息 并返回 某个特 定的值 （ 比如 0)。 不过， 
即便 我们坚 信不会 以小于 1的《 来调用 fact, 也还是 要明智 一些， 在 依据情 况中包 含所有 的“错 
误情 况”。 这样 一来， 以 错误的 输入调 用函数 fact 会直接 返回值 1， 虽然 这是不 对的， 但 不至于 
造成程 序出错 （其 实， 对《=0 来说， 结果为 1 也是 对的， 因为 0 的阶 乘等于 1)。 

然而， 假 如忽略 掉错误 情况， 并将图 2-19 的第 (1) 行写成 

if(n  ==  1) 

那 么如果 调用了  fact  (0) , 它就 会被看 作递归 情况的 实例， 并会接 着调用 fact  (-1) 、 
fact  (-2) , 等等， 直到 计算机 用尽记 录递归 调用的 空间才 会出错 终止。 


我们 可以像 绘制归 纳证明 和归纳 定义的 图那样 绘出递 归图。 在图 2-21 中， 假 设存在 递归函 
数 的参数 “ 大小” 这 样一个 概念。 例如， 对示例 2.21 中的 fact 函数 而言， 参数 《的 值就具 有合适 
的 大小。 我 们将在 2.9 节中 介绍更 多与这 种大小 有关的 内容。 不过， 在这里 要注意 的是， 递归调 
用 只会调 用大小 更小的 参数。 还有， 在到达 某特定 大小时 （比 如在图 2-21 中就是 大小为 0)， 就 
必须达 到依据 情况， 也 就是必 须终止 递归。 
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void  recSS (int  A 口， int  i， int  n) 

{ 

int  j ,  small ,  temp; 

if  (i  <  n-1)  {/* 依据是 i  =  n-1, 在 这种情 况下， 
该 函数会 返回而 不改变 V 
/* 归纳如 下 */ 

small  =  i; 

for  ( j  =  i+1;  j  <  n;  j++) 
if  (A[j]  <  A  [small] ) 
small  =  j ; 
temp  =  A  [small] ; 

A [small]  =  A  [i] ; 

A[i]  =  temp; 
recSS(A,  i+1 ,  n) ; 


在 fact 函 数的例 子中， 调 用过程 不像图 2-21 所 示那样 具有一 般性。 调用 fact  (n) 会 导致对 
fact  (n-1) 的直接 调用， 但 fact  (n) 不会直 接调用 其他具 有更小 参数的 fact。 

♦ 示例 2.22 

如果将 底层算 法表示 为如下 形式， 就可 以将图 2-2 中的 SelectionSort 函数 变成递 归函数 
recSS。 此处 假设要 排序的 数据是 在数组 A [0  .  .n-1] 中。 

(1)  从数组 A 的尾 部， 也 就是从 A[i.  .n-1] 中， 选岀 最小的 元素。 

(2)  将步骤 (1) 中 选出的 元素与 A  [i] 互换。 

(3)  将剩下 的数组 A  [i+1.  .n-1] 进行排 序。 

我们 可用如 下递归 算法表 示选择 排序。 

依据。 如果 /  =  «-1 ， 那 么数组 中只有 一个元 素需要 排序。 因为任 意一个 元素都 是已排 序的， 
所以 我们什 么都不 用做。 

归纳。 如 果/<«-1， 那么 要找岀 A  [i.  .n-1] 中 最小的 元素， 将其与 A [幻 互换， 并 递归地 
将 A  [i  +  1.  .n-1] 进行 排序。 

整个算 法是从 /  =  0 开 始执行 以上递 归的。 

如果将 / 视作 上述 归纳中 的归纳 参数， 那么它 就是逆 向归纳 ( backward  induction  ) 的 例子。 
我 们从参 数最大 的依据 开始， 通 过归纳 规则， 用 较大参 数的实 例去解 决较小 参数的 实例， 这是 
种 特别好 的归纳 风格， 虽 然我们 之前并 未提及 它的可 能性。 不过， 还可以 将上述 归纳视 为普通 
的， 或是说 “ 正向” 归纳， 只要将 数组尾 部待排 序元素 的数目 &  =  作为归 纳参数 即可。 

在图 2-22 中， 我们 看到了 recSS(A,i,n) 程序 。 其第二 个参数 i 是数组 A 未排 序部分 第一个 
元素的 下标， 第三 个参数 n 是数组 A 中待 排序 元素的 总数。 不难 看出， 《是 小于等 于数组 A 的最大 
大 小的。 因此， 调用 recSS  (A,0,n) 会为整 个数组 A  [0.  .n-1] 排序。 


图 2-22 递 归的选 择排序 

就图 2-21 而言， d/ 对 recSS 函数 的参数 来说是 合适的 “ 大小” 概念。 依据 情况是 d 
也就 是为一 个元素 排序， 不 需要发 生递归 调用。 归纳 步骤就 讲述了 如何通 过选出 最小元 素并排 
序 剩下的 s  -1 个元素 来为〆 h 元素 排序。 

在第 (1) 行， 我 们会测 试依据 情况， 就是只 有一个 元素需 要排序 的情况 （这里 我们再 次进行 
了 防御性 编程， 这样 一来， 就 算在调 用时有 / 多 《 ， 也不会 造成无 限的调 用）。 在该 依据情 况中， 


■ /  \ — /  \ — /  \ — /  \ — /  \ — /  \ — /  \ — /  \ — / 

1  23456789 

/ \ / - % / - \  / - 、 / - \  V - \  / - \ / - V  / - ' 
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我 们无事 可做， 所 以直接 返回。 

函数其 余部分 是归纳 情况。 第 (2) 至 (8) 行 直接照 搬了递 归选择 排序程 序中的 内容。 就 像那个 
程序 那样， 这 几行会 将数组 A  [i.  .n-1] 最 小元素 的下标 赋值给 small, 并将该 元素与 A [幻互 
换。 最后， 第 (9) 行 是递归 调用， 会 排序数 组其余 部分。 

习题 

(1)  我们可 以按下 以下方 式递归 地定义 n2 。 

依据。 对 n  =  l ， 有 12=1 

归纳。 如果 n2=w, 那么 （n  +  1)2  =m  +  2n  +  l 。 

(a)  编写 C 语言递 归函数 实现该 递归。 

(b)  通过对 n 的归纳 证明该 定义能 正确地 计算 。 

(2)  假设 有数组 A[0..4]， 其 中有按 所述顺 序排列 的元素 10、 13、 4、 7、 11。 在每次 调用图 2-22 所示 
的递 归函数 recSS 之前， 数组 A 的内 容是怎 样的？ 

(3)  假设如 1.3 节 所述， 使用 1.6 节 给出的 DefCell(int,CELL,LIST) 宏来 定义整 数链表 的节点 。回 
想 一下， 该 宏会扩 展为如 下类型 定义： 

typedef  struct  CELL  *LIST; 
struct  CELL  { 
int  element ; 

LIST  next ; 

>； 

编写递 归函数 find, 接受 LIST 类型的 参数， 并在某 个链表 节点含 有整数 1698 作为 其元素 时返回 
TRUE, 如 果没有 则返回 FALSE。 

(4)  编写递 归函数 add, 像习题 (3) 那 样接受 LIST 类型的 参数， 并返 回表中 各元素 之和。 

(5)  使 用习题 (3) 中 提到的 节点， 编 写接受 整数链 表作为 参数的 递归选 择排序 函数。 

(6)  我们 在习题 (8) 中 提岀， 可以 将选择 排序一 般化， 以使用 任意的 key 和 It 函数 来比较 元素。 重新编 
写 递归的 选择排 序算法 以融人 这种一 般性。 

(7)  *给 岀递归 算法， 接 受整数 /， 并生成 / 的二 进制表 示形式 （由 0 和 1 组 成的序 列）， 其中 低位排 在前。 

(8)  * 两个整 数郝/ 的最大 公约数 （ greatest  common  divisor,  GCD  ) 是指 能整除 z •和/ 的最大 整数。 例如， 
g«/(24,30)  =  6 ， 而 gcJ(24, 35)  =  1  0 编 写递归 函数， 接 受两个 整数押 q/， 其中 />j_ ， 并返回 gcd(i,j) 。 
提示： 大家 可以使 用如下 所述的 gcJ 的递归 定义， 它假设 z>_/。 

依据。 如果/ 能整除 /， 贝 1|/ 是评 q/ 的 最大公 约数。 

归纳。 如果 /不 能整除 /， 设 A： 是 /除以 / 得到的 余数。 那么 就和 是相 同的。 

(9)  ** 证明： 习题 (8) 中给岀 的最大 公约数 递归定 义和它 的非递 归定义 （ 整除评 q/ 的最大 整数） 能得岀 
相同 结果。 

(10)  通常， 递归 定义可 以相当 直接地 转化为 算法。 例如， 考虑一 下示例 2.16 中 给岀的 字符串 “ 小于” 
关系 的递归 定义。 编 写递归 函数， 测 试两个 给定字 符串中 的第一 个字符 串是否 “ 小于” 另 一个字 
符串。 假设字 符串是 用字符 链表表 示的。 

(11)  * 根据 2.6 节 的习题 (8) 中给 岀的已 排序表 的递归 定义， 创建 一种递 归排序 算法。 该算法 与示例 2.22 
中 的递 归选择 排序相 比 如何？ 


分 治 法 

有一 种攻克 问题的 方式， 是 将问题 分解成 多个子 问题， 然 后解决 这些子 问题， 并将它 们的解 决方案 
结 合成整 个问题 的解决 方案。 术语 分治法 就是用 来 描述这 种问题 解决技 术的。 如果 这些子 问题和 原问题 
相似 ，那么 我 们也许 能使用 相同的 函 数递归 地解决 这些子 问题。 
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要 让这种 技术起 作用， 有两点 要求。 首先是 子问题 必须比 原问题 简单。 其次是 在有限 次细分 之后， 
必须 得到能 立即解 决的子 问题。 如 果达不 到这些 条件， 递 归算法 就会一 直细分 问题， 而找不 出解决 方案。 

我们 注意到 图 2-22 中的递 归函数 recSS 就满足 这两个 条件。 每当 调用该 函数， 就 是对少 一个元 素的子 
数列 调用该 函数， 而在对 只含一 个元素 的子数 列调用 它时， 它就会 返回而 不再继 续调用 自己。 类似地 ，图 
2-19 中的阶 乘程序 会在每 次调用 时调 用较小 整数， 而 递归过 程会在 调用参 数到达 1 时 停止。 2.8 节讨论 了分治 
法更 为强大 的应用 —— “ 归并排 序”。 在 这种排 序中， 待 排序数 组的大 小减小 得非常 迅速， 因为归 并排序 
在 每次递 归调用 时会将 数组大 小砍掉 一半， 而不 是减去 1。 


2.8 归并 排序： 递 归的排 序算法 

现 在要考 虑一种 名为归 并排序 的与选 择排序 有着天 壤之别 的排序 算法。 递归 的方式 能最好 
地描 述归并 排序， 而归并 排序展 示了分 治法的 强大， 在这种 排序方 法中， 我们 通过将 问题“ 分为” 
大小 减半的 两个相 似问题 来为表 (％, a2 ，…, a„) 排序。 从原则 上讲， 可 以首先 将原表 分为两 个元素 
任 选的大 小相等 的表， 不过在 我们开 发的程 序中， 将会将 其分为 一个含 有奇数 编号元 素的表 
Op%, %,"•)， 以及一 个含 有偶数 编号元 素的表 02,fl4,a6, …)。 ® 接着 单独为 大小减 半的两 个表排 
序。 要完成 原表中 《个 元素的 排序， 要使 用示例 2.23 中描述 的算法 来合并 两个大 小减半 的表。 

在第 3 章中， 我们将 看到， 随着 待排序 表长度 《的 增加， 归并排 序所需 时间的 增长速 度要远 
慢 于选择 排序所 需时间 的增长 速度。 因此， 即便递 归调用 会额外 耗费些 时间， 当《很 大时， 还是 
应该优 先使用 归并排 序而不 是选择 排序。 在第 3 章中 我们将 分析这 两种排 序算法 的相对 性能。 

2.8.1 合并 

“ 合并” 是 指用两 个已排 序表生 成一个 只包含 这两个 表中所 有元素 的已排 序表。 例如 ，假 
设有表 （1,2, 7, 7,9) 和 （2, 4, 7,8)， 合 并后的 表就是 (1，2,2,4,7,7,7,8,9)。 请 注意， 对 未排序 的表谈 
“ 合并” 是 没有意 义的。 

有一 种合并 两个表 的简单 方式， 就 是从表 开头开 始分析 它们。 在每一 步中， 我们找 岀两个 
表 当前开 头位置 的两个 元素中 较小的 那个， 选 择该元 素作为 合并后 的表的 下一个 元素， 并将该 
元素 从它原 来所在 的表中 删除， 使 该表具 有一个 新的 “ 首位” 元素。 虽然 我们在 两个表 开头的 
元素相 同时会 选取第 一个表 开头的 元素， 但是持 平关系 的打 破是具 有任意 性的。 

♦ 示例 2.23 

考 虑合并 以下两 个表。 

A  =(1， 2, 7, 7, 9) 和 4  =(2,4, 7, 8) 

两个表 的第一 个元素 分别为 1 和 2 。 因为 1 比 较小， 所以 将其选 作合并 后的表 M 的第 一个元 
素， 并将 1 从 A 中删 除， 因此新 的 & 就是 (2, 7, 7, 9)。 现在， & 和尽 的第 一个元 素都是 2。 可以任 
选 其一。 假设采 取持平 情况下 总是从 & 中选取 元素的 策略， 那 么合并 后的表 M 就变为 (1,2)， 表 
A 变为 (入 7, 9)， 而 4 仍为 (2, 4, 7, 8)。 图 2-23 所 示的表 格展示 了直到 A 和 4 双双 耗尽的 整个合 
并 步骤。 


①请 记住， “ 奇数编 号”和 “偶数 编号” 指的是 元素在 表中的 位置， 而非这 些元素 的值。 


60  第 2 章 迭代、 归纳 和递归 


LIST  merge (LIST  listl,  LIST  list2) 

{ 

if  (listl  ==  NULL)  return  list2 ; 
else  if  (list2  ==  NULL)  return  listl ; 
else  if  (listl -〉 element  <=  list2->element)  { 
/* 在 这里， 两个 表都不 为空， 

而且 第一个 表的首 个元素 更小。 

得 到的结 果 就是第 一 个表的 第一个 元素， 

后面跟 上其余 元素的 合并。 */ 
listl->next  =  merge (list l->next ,  list2) ; 
return  listl ; 

> 

else  {  /*  list2 的 首个元 素更小 */ 

list2->next  =  merge (list 1 ，  list2->next) ; 
return  list2; 


图 2-23 合并 的例子 

我 们将会 发现， 如 果把表 表示为 1.3 节所 介绍的 链表， 设计 归并算 法的工 作会更 简单。 链表 
将 会在第 6 章中得 到更为 详细的 介绍。 接着， 要假设 表的元 素都为 整数。 因此， 每 个元素 都能表 
示 为一个 “单 元”， 或 者说是 struct  CELL 类 型的结 构体， 而表 则表示 为指向 CELL 的 LIST 类 
型的 指针。 这 些定义 都是由 我们在 1.6 节中讨 论过的 DefCell  (int,  CELL,  LIST) 宏 来定义 
的。 这种对 DefCell 宏的使 用会扩 展为： 

typedef  struct  CELL  *LIST ; 

struct  CELL  { 
int  element ; 

LIST  next ; 

>； 

每个 单元的 e  1  ement 字 段都含 有一个 整数， 而 next 字 段则含 有指向 表中下 一 单元的 指针。 
如果 当前的 元素是 表中最 后一个 元素， next 字段就 含有表 示空指 针的值 NULL。 然后整 列整数 
就会 用指向 表第一 个单元 的指针 （即 一个 LIST 类型的 变量） 来 表示。 而 空表会 用值为 NULL 的 
变量 （而不 是指向 第一个 元素的 指针） 来 表示。 

图 2-24 是归并 算法的 C 语言 实现。 merge 函数接 受两个 表作为 参数， 并返回 合并后 的表。 也 
就 是说， 形 式参数 listl 和 list2 是指向 两个给 定表的 指针， 而返 回值是 指向合 并后的 表的指 
针。 递 归算法 可描述 为如下 形式。 
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图 2-24 递归 的合并 
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依据。 如果 任一表 为空， 那么 另一个 表就是 所需的 结果。 这条 规则是 通过图 2-24 中的第 (1) 
行和第 (2) 行实 现的。 请 注意， 如果两 个表都 为空， 就 将返回 list2。 不过 这是正 确的， 因为这 
里 list2 的值是 NULL, 而 两个空 表的结 合还是 空表。 

归纳。 如 果两个 表都不 为空， 那 么每个 表都有 第一个 元素。 我 们可以 将两个 表的第 一个元 
素分另 称为 list  l->element 和 list2->element ， 即分另 !|由 list  1 和 list 2 手旨 向白勺 单元的 
element 字段。 图 2-25 展 示了这 种数据 结构。 返回 的表从 含有最 小元素 的单元 开始。 该 返回表 
其 余的部 分由两 个表中 除这个 最小元 素之外 的所 有元素 组成。 


返回值 


表 1 


表 2 


图 2-25 归并算 法的归 纳步骤 

例如， 第 (4) 行和第 (5) 行处 理的是 最小元 素为表 1 中 第一个 元素的 情况。 第 (4) 行是对 merge 
函数 的递归 调用。 该 调用的 第一个 参数是 listl->next， 也就是 指向表 1 中第二 个元素 的指针 
(如 果表 1 只有 一个元 素则为 NULL)。 因此， 传人 该递归 调用的 是由表 1 中除 第一个 元素之 外的所 
有元 素组成 的表。 第二个 参数是 整个表 2。 因此， 第 (4) 行中对 merge 函数 的递归 调用会 返回一 
个 指针， 指向合 并后的 表中其 余所有 元素， 并将 该指向 合并后 的表的 指针存 储在表 1 第一 个单元 
的 next 字 段中。 在第 (5) 行， 我们会 返回指 向上述 单元的 指针， 该单 元现在 已经是 合并后 的表所 
有元 素中的 第一个 单元。 

图 2-25 展示 了这种 变化。 虚线表 示的箭 头会在 merge 被 调用时 出现。 特 别要说 的是， merge 
的返回 值是指 向最小 元素所 在单元 的指针 ，而 且该 元素的 next 字段是 指向第 (4) 行对 merge 的递 
归调用 所返回 的表。 

最后， 第 (6) 行和第 (7) 行 会处理 最小元 素在表 2 中的 情况。 该算 法的行 为与第 (4) 行和第 (5) 行 
中的行 为是一 样的， 只不过 两个表 的角色 互换了 而已。 

♦ 示例 2.24 

假 设我们 对示例 2.23 中 的表 (1,2, 7, 7, 9)  ^(2, 4  J  8) 调用 merge 。 图 2-26 展示了 进行合 并所产 
生 的调用 序列， 是按 照第一 列中由 上向下 的顺序 进行调 用的。 在图 中我们 省去了 分隔表 元素的 
逗号， 不 过在分 隔进行 合并的 参数时 要用到 逗号。 


调  用 

返  回 

merge(12779/2478) 

122477789 

merge (2779,2478) 

22477789 

merge (779, 2478) 

2477789 

merge (779,478) 

477789 

merge (779,78) 

77789 

merge (79,78) 

7789 

merge (9,78) 

789 

merge (9,8) 

89 

merge ( 9 , NULL) 

9 

图 2-26 对 merge 函 数的递 归调用 
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LIST  split (LIST  list) 

{ 

LIST  pSecondCell; 

if  (list  ==  NULL)  return  NULL; 
else  if  (list->next  ==  NULL)  return  NULL; 
else  {  /*  there  are  at  least  two  cells  */ 
pSecondCell  =  list->next ; 
list->next  =  pSecondCell->next ; 
pSecondCell->next  =  split (pSecondCell->next) ; 
return  pSecondCell ; 


例如， 因为表 1 的乐 一个元 素比表 2 的乐 一个元 素小， 所以会 执行图 2-24 的乐 (4) 行， 而且我 
们会归 并除表 1 第 一个元 素之外 的所有 元素。 也就 是说， 第 一个参 数是表 1 其余 的部分 ，即 
(2, 7, 7, 9) , 而第 二个参 数就是 整个表 2， 即 (2, 4, 7, 8)。 现在两 个表开 头的元 素是相 同的。 因为 
图 2-24 中第 (3) 行的 测试 偏向表 1， 所以我 们从表 中移岀 2, 而对 merge 函 数的下 一次调 用中， 第 
一个参 数就是 (7,7,9) ， 第 二个参 数还是 (2, 4, 7, 8)。 

返回的 表在第 二行中 表示， 是按从 下向上 的顺序 看的。 请 注意， 与图 2-23 中 合并的 迭代描 
述不同 的是， 递归 算法会 从尾部 起组成 合并后 的表， 而 迭代算 法则是 从头开 始组成 合并后 的表。 

2.8.2 分割表 

归并排 序的另 一项重 要任务 是将一 个表均 分为两 个表， 或者， 如果 原表的 长度为 奇数， 就 
分 为长度 只相差 1 的两 个表。 要完 成这一 工作， 一种方 式是数 出表中 元素的 数目， 然 后除以 2, 
并在 表的中 点将其 拆分。 我们 将给出 一个简 单的递 归函数 split, 将这 些元素 “ 处理” 进两个 
表， 其 中一个 表由第 1 个、 第 3 个、 第 5 个 等元素 组成， 而另 一个表 则由偶 数位置 的元素 组成。 更 
确切 地说， split 函数会 将偶数 编号的 元素从 作为参 数给岀 的表中 删除， 并返回 一个由 这些偶 
数编 号元素 组成的 新表。 

split 函数的 C 语言代 码如图 2-27 所示， 它的 参数是 LIST 类型 的表， 这样定 义是和 merge 函 
数有 关的。 请 注意， 局 部变量 pSecondCell 被 定义为 LIST 类型。 这 里是将 pSecondCell 用作指 
向 表第二 个单元 （而 不是 指向表 本身） 的 指针， 不 过其实 LIST 类 型当然 是指向 单元的 指针。 


图 2-27 将表 均分为 两部分 

split 是个 具有副 作用的 函数。 它 会从作 为参数 给出的 表中删 除偶数 位置的 单元， 而且它 
会将 这些单 元组合 成一个 作为该 函数返 回值的 新表。 

我们能 以如下 形式， 用归 纳的方 式描述 该分割 算法。 它对表 的长度 进行了 归纳， 这 段归纳 
具有多 个依据 情况。 

依据。 如 果表的 长度为 0 或 1， 那么 我们什 么都不 用做。 这就 是说， 空 表会被 “分 割成” 两 
个 空表， 而 只有一 个元素 的表， 在 分割时 会将唯 一的元 素留在 给定的 表中， 并返 回一个 空的偶 
数编号 元素表 （因为 原表没 有偶数 编号的 元素， 所以这 个表中 没有元 素）。 该依据 是由图 2-27 所 
示程 序的第 (1) 行和第 (2) 行处 理的。 第 (1) 行处 理的是 list 为空的 情况， 而第 (2) 行处理 的则是 
list 中只 含一个 元素的 情况。 请 注意， 我 们在第 (2) 行中 会避免 去检查 list->next， 除 非之前 
在第⑴ 行中已 经确定 list 不为 NULL。 

归纳。 归 纳步骤 适用于 list 中 至少存 在两个 元素的 情况。 第 (3) 行中局 部变量 pSecondCell 


\ ― /  \ ― /  \ ~ /  \ ― /  \ — /  \ — / 

12  3  4  5  6 

/ - 、 / - '  / - \  / - N  V - V  / - X 
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中 存放了 指向表 第二个 单元的 指针； 第 (4) 行 则是使 第一个 单元的 next 字段跳 过第二 个单元 ，直 
接指向 第三个 单元， 或者， 如果 表中只 有两个 单元， 就变为 NULL; 在第 (5) 行， 我 们对除 前两个 
元 素之外 的整个 表递归 地调用 split 函数； 而 split 函数 会在第 (6) 行返回 一个指 向第二 个单元 
的 指针， 该指 针让我 们可以 访问由 原表中 所有偶 数编号 的元素 组成的 链表。 

split 带 来的变 化如图 2-28 所示。 原 始指针 用虚线 表示， 而 新指针 用实线 表示。 我 们还指 
岀 了创建 每个新 指针的 代码行 编号。 


图 2-28  split 函数 的动作 


2.8.3 排 序算法 

递归的 排序算 法如图 2-29 所示， 该算 法可以 通过以 下依据 与归纳 步骤来 描述。 

LIST  MergeSort(LIST  list) 

LIST  SecondList ; 

if  (list  ==  NULL)  return  NULL ; 
else  if  (list->next  ==  NULL)  return  list ; 
else  { 

/* 表中至 少有两 个元素 */ 

SecondList  =  split (list) ; 

/* 请 注意， 这 样做的 副作用 是有一 半元素 会从表 中删除 */ 

return  merge (MergeSort (list) ,  MergeSort (SecondList) ) ; 

}  ^  一 

图 2-29 归并排 序算法 

依据。 如 果待排 序的表 为空或 长度为 1， 那么 只要返 回该表 即可， 因为它 是已排 序的。 该依 
据 是由图 2-29 中的第 (1) 行和第 (2) 行处 理的。 


⑴ 

(2) 

(3) 

⑷ 
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归纳。 如果待 排序表 的长度 至少为 2,  S 卩 么在第 (3) 行使用 split 函数， 从 list 中删 除偶数 
编号的 元素， 并使用 这些被 删除的 元素组 成另一 个表， 该表 是由局 部变量 SecondList 指 向的。 
第 (4) 行会递 归地为 大小减 半的表 排序， 并 返回这 两个表 的归并 结果。 


♦ 示例 2.25 

让 我们用 归并排 序为一 列一位 数数字 742897721 排序。 为求 简洁， 我们 再次省 略了数 字之间 
的 逗号。 首先， 通过 MergeSort 函数第 (3) 行中对 split 的 调用， 表 会被分 为两个 部分。 生成的 
两 个表中 有一个 是由奇 数位置 的元素 组成， 另一个 则由偶 数位置 的元素 组成。 也就 是说， 这里 
有 list  =  72971， 而 SecondList=  4872。 在第 (4) 行， 这两个 表会被 排序， 结果就 成了表 12779 
和 2478, 然后 就会合 并成已 排序表 122477789。 

不过， 这两 个大小 减半的 表的排 序工作 并不是 凭空进 行的， 而 是通过 对该递 归算法 的合理 
应用做 到的。 一 开始， 如 果作为 MergeSort 参数 的表长 度大于 1 ， 那么 MergeSort 就 会将其 分割。 
图 2-30a 展示了 对表进 行递归 分割， 直 到每个 表的长 度都成 1 为止。 然后分 割的表 会成对 地合并 
起来， 沿着 树结构 向上， 直 到整个 表完成 排序。 这个过 程如图 2-30b 所示。 不过， 值 得注意 的是， 
分割 和合并 操作是 交替进 行的， 而不是 在完成 所有分 割工作 后再进 行合并 。例 如， 第 一半表 72971 
会 在开始 处理第 二半表 4872 前 被完全 分割及 合并。 


(a) 分割 


(b) 合并 

图 2-30 递归 的分割 和合并 
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#include  <stdio *h> 

#include  <stdlib.h> 

typedef  struct  CELL  *LIST ; 
struct  CELL  { 
int  element ; 

LIST  next ; 

>； 

LIST  merge (LIST  listl,  LIST  list2) ; 

LIST  split (LIST  list) ; 

LIST  MergeSort(LIST  list) ; 

LIST  MakeListO  ; 

void  PrintList (LIST  list) ; 

main() 

{ 

LIST  list; 

list  =  MakeListO; 

PrintList (MergeSort (list) ) ; 

} 

LIST  MakeListO 
int  x; 

LIST  pNewCell; 

if  (scanf  (,,0/0dn ,  &x)  ==  EOF)  return  NULL; 
else  { 

pNewCell  =  (LIST)  malloc (sizeof (struct  CELL)); 
pNewCell->next  =  MakeListO  ； 
pMewCell->element  =  x; 
return  pNewCell; 


void  PrintList (LIST  list) 

{ 

while  (list  !=  NULL)  { 

printf  (,,0/Od\nn ， list->element) ; 
list  =  list->next ; 

} 


2.8.4 完整 的程序 

图 2-31 包 含了完 整的归 并排序 程序。 它类 似于图 2-3 中所 示的选 择排序 程序。 第 (1) 行中 
MakeList 函数读 取输入 的每个 整数， 并 通过一 个简单 的递归 算法将 其放入 链表中 （我 们将在 
下一节 中详细 描述该 递归算 法)。 主程 序的第 (2) 行 含有对 MergeSort 的 调用， 会 将一个 已排序 
表 返回给 PrintList。 而 PrintList 函数 会向下 遍历整 个已排 序表， 打印 岀每个 元素。 


\ — - /  \ — - /  \ — /  \ — /  \ — / 

3  4  5  6  7 

/ _ V  / _ % / _ V  / - V  / - - 


8  9  0 

/IV  /IV  1 


} 


图 2-31(a) 使用 归并排 序的排 序程序 （开 头） 
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LIST  MergeSort(LIST  list) 

{ 

LIST  SecondList ; 

if  (list  ==  NULL)  return  NULL; 

else  if  (list->next  ==  NULL)  return  list ; 

else  { 

SecondList  =  split (list) ; 

return  merge (MergeSort (list) ,  MergeSort (SecondList) ) ; 


LIST  merge (LIST  listl,  LIST  list2) 

{ 

if  (list  1  ==  NULL)  return  list2 ; 
else  if  (list2  ==  NULL)  return  listl ; 
else  if  (listl->element  <=  list2->element)  { 
listl->next  =  merge (list l->next ,  list2) ; 
return  listl ; 

> 

else  { 

list2->next  =  merge (list  1 ,  list2->next) ; 
return  list2 ; 


LIST  split (LIST  list) 

{ 

LIST  pSecondCell; 

if  (list  ==  NULL)  return  NULL; 

else  if  (list->next  ==  NULL)  return  NULL; 

else  { 

pSecondCell  =  list->next ; 
list->next  =  pSecondCell->next ; 
pSecondCell - >next  =  split (pSecondCell->next) ; 
return  pSecondCell; 


图 2-31(b) 使用 归并排 序的排 序程序 （结 尾） 


2.8.5  习题 

(1)  给 出对表 (1,2, 3, 4, 5) 和 (2,4,6,8,10) 应用 merge 函数的 结果。 

(2)  假 设一开 始有表 (8, 7, 6, 5, 4, 3,2,1) , 给出 产生的 merge、 split 和 Mergesort 的调用 序列。 

(3) * 多路 归并排 序会将 一个表 均分为 &个 部分 （或分 为接近 均等的 Fh 部 分）， 并 分别为 这些表 排序， 
然后， 通过 比较这 Fh 表 中第一 个元素 的大小 并选出 最小的 那个， 将这些 表合并 起来。 本节 中描述 
的 归并算 法就是 A  =  2 时的 情况。 修改图 2-31 中的 程序， 使 其成为 A  =  3 情 况下的 多路归 并排序 
程序。 

(4) * 重写归 并排序 程序， 使用 2.2 节习题 (7) 中的 It 和 key 函数， 以比 较任意 类型的 元素。 

(5)  将函数 merge、 split 和 MakeList 分 别与图 2-21 联系 起来。 这些 函数合 适的大 小各为 多少？ 


2.9 证明递 归程序 的属性  67 


2.9 证明递 归程序 的属性 

如 果想证 明某个 递归函 数的某 个特定 属性， 通常 需要证 明关于 调用一 次该函 数的效 果的命 
题。 例如， 这 种效果 可能是 参数和 返回值 之间的 关系， 比如 “调用 函数， 参数为 /， 返回 〖!”。 我 
们经常 要为函 数的参 数定义 “ 大小” 的 概念， 并 通过对 这个大 小的归 纳进行 证明。 可以 用很多 
方式定 义参数 大小， 其中包 括如下 内容。 

(1)  某 个参数 的值。 比如， 在图 2-19 的阶乘 递归程 序中， 合适 的参数 大小就 是参数 n 的值。 

(2)  某个参 数指向 的表的 长度。 图 2-27 所示的 split 递 归函数 就是个 例子， 合 适的参 数大小 
是表的 长度。 

(3)  参 数构成 的某些 函数。 例如， 前面提 到过， 图 2-22 中 递归的 选择排 序会对 数组中 有待排 
序的 元素数 目进行 归纳。 对参数 《和/ 来说， 该函 数就是 /W+1。 再 比如， 图 2-24 中 merge 函数合 
适 的参数 大小就 是两个 参数指 向的表 的长度 之和。 

不管 选择了 什么样 的参数 大小， 关 键是， 在函 数被调 用时， 如果参 数的大 小为& 那 么只能 
以 大小为 s-1 或 更小的 参数执 行函数 调用。 这 样我们 可以对 参数大 小进行 归纳， 从而证 明程序 
的 属性。 此外， 当这 个大小 下降到 某个固 定的值 （例如 0) 时， 该函 数一定 不会再 进行递 归调用 
了， 因而我 们可以 由依据 情况开 始进行 归纳证 明了。 

♦ 示例 2.26 

考虑 2.7 节图 2-19 中 的阶乘 程序。 通过 X 扣的 归纳， 证明对 /彡1， 有如 下命题 为真。 

命题岛 0。 在调用 fact 时如 果参数 n 的值为 /， 那么 fact 会返回 /!。 

依据。 对卜 1， 图 2-19 中第⑴ 行的测 试会使 作为依 据的第 (2) 行被 执行， 结果返 回值为 1， 也 
就是 1!。 

归纳。 假设 ^ ⑴为 真， 也就 是说， 在调用 fact 时， 如果 参数为 某个值 不小于 1 的 /， 那么它 
会返回 /!。 现在， 考虑 在调用 fact 时， 变量 n 的值为 /+1 的 情况。 如果 /彡1  , 那么 /+1 至 少等于 2, 
所以第 (3) 行 的归纳 情况是 适用的 ，因 此返回 值就是 fact{n-\) 。或 者有 ，因 为变量 n 的值为 /+1 ， 
返回的 结果是 (/  +  l)x/ac ⑹。 由归纳 假设， fact ⑴ 返回了 /! 。 因为有 ( z_+l )  x/!  =  (/+1)! ， 所 
以证明 了归纳 步骤， 也就是 参数为 /+1 的 fact 函数会 返回垆 1)!。 

♦ 示例 2.27 

现在， 我们 来看看 2. 8 节图 2-3 la 中的辅 助例程 - MakeList 函数。 该 函数会 创建一 个用来 

存 放输人 元素的 链表， 并返回 指向该 链表的 指针。 我们 要对输 入序列 中元素 的数目 〃进行 归纳， 
证明对 《彡0, 有以 下命题 为真。 

命题* S00 。 若输人 序列为 XI、 X2、 …、 ：<：„贝1]]^]^1^311会创建一个含有11、12、"_、 1„的 链表， 
并返 回指向 该 链表的 指针。 

依据。 依据为 《  =  0， 也 就是， 当输入 序列为 空时的 情况。 第 (3) 行中 MakeList 函数对 EOF 
的测试 会导致 返回值 被置为 NULL。 因此， MakeList 正 确地返 回了空 链表。 

归纳。 假设对 有双 《) 为真， 并考 虑对有 /7  +  1 个元 素的序 列调用 MakeList 时会发 
生的 情况。 假 设我们 刚读取 了第一 个元素 七 。 

MakeList 的第 (4) 行会创 建指向 新单元 c 的指 针。 由归纳 假设， 第 (5) 行会递 归调用 
Makelist 创建 一 个 指针， 指向存 放其余 《个 元素 公、 x3、 …、 x„+1 的链 表。 该指 针在第 (5) 行会被 
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装人 c 的 next 字段。 第⑹行 则会将 xi 装人 c 的 element 字段。 第 (7) 行会 返回第 (4) 行所创 建的指 
针。 该 指针指 向存放 xi、 x2、 …、 x„+1 这 《  +  r 个输入 元素的 链表。 

这样 就证明 了归纳 步骤， 并得出 MakeList 能 正确处 理所有 输人的 结论。 

♦ 示例 2.28 

在最后 一个示 例中， 要 证明图 2-29 中归并 排序程 序的正 确性， 其 中假设 split 和 merge 函 
数分 别能正 确执行 它们的 任务。 我们要 对作为 MergeSort 函数 的参数 的表的 长度进 行归纳 。要 
通过对 不小于 0的《 进行完 全归纳 来证明 的命题 如下。 

命题 *S(«)。 如果 list 是 MergeSort 被调用 时长度 为《 的表， 那么 MergeSort 将返 回具有 
相 同元素 的已排 序表。 

依据。 要 使用负 0) 和劝) 作为 依据。 当 list 的 长度为 0 时， 它 的值为 NULL, 因此图 2-29 中 
第 (1) 行的 测试会 成功， 而 整个函 数会直 接返回 NULL。 同样， 如果 list 的 长度是 1， 第 (2) 行的 
测试会 成功， 函数 就会直 接返回 list。 因此， MergeSort 函数在 《 等于 0 或 1 时 会返回 list。 
这一 结果证 明了双 0) 和从 1) ， 因为 长度为 0 或 1 的表 本来就 是已排 序的。 

归纳。 假设 《》1， 而且对 所有的 /  =  0、 1、 •••《， 都有 劝) 为真。 我们 必须要 证明坤 +  1) 为 
真。 因此， 要考虑 长度为 《  +  1 的表。 因为 〃彡 1， 所以表 的长度 至少为 2, 这 样就到 达了图 2-29 
中的第 (3) 行。 在 那里， 如果表 的长度 《  + 1 为 偶数， split 就 会把该 表分为 两个长 度都为 («  +  1)/2 
的表， 否则如 果《  +  1 为 奇数， 就分 为长度 分别为 (《/2)  +  1 和《/2 的两 个表。 因为 《彡1， 所以 
这些 表的长 度不可 能达到 《  +  1。 这样 的话， 归 纳假设 适用于 它们， 我们就 可以由 此得岀 结论， 
通过 Xt 第 (4) 行 的递归 调用， 正 确地对 长度减 半的表 进行了 排序。 我们 已假设 merge 是能 正确工 
作的， 所 以返回 的表也 是已排 序的。 

习题 

⑴ 证明： 图 2-31b 中的 PrintList 函 数会打 印岀作 为参数 传人的 表中的 元素。 需要递 归证明 的命题 
SG) 是 什么? 作为 依据的 / 值是 多少？ 

(2) 图 2-32 中的 sum 函 数可以 计算给 定表中 各元素 之和， 该表 中的单 元具有 1.6 节中的 DefCell 宏所定 
义 的常见 类型， 这些 类型在 2.8 节中 的归并 排序程 序中使 用过。 它是通 过将第 一个元 素加在 剩余元 
素的 和上计 算所有 元素之 和的， 而 这里提 到的剩 余元素 之和， 是通过 对表剩 余部分 递归调 用该函 
数计 算的。 证明： sum 函数可 以正确 地计算 表元素 之和。 需要归 纳证明 的命题 是 什么？ 作为 
依据的 / 值是 多少？ 


DefCellCint,  CELL，  LIST) ; 

int  sum (LIST  L) 

{ 

if  (L  ==  NULL)  return  0; 

else  return (L->element  +  sum(L->next) ) ; 

} 

int  findO(LIST  L) 

{ 

if  (L  ==  NULL)  return  FALSE; 

else  if  (L->element  ==  0)  return  TRUE; 

else  return  f indO(L->next) ; 


图 2-32 递归 函数 sum 和 f  indO 
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(3)  如 果表中 的元素 至少有 一个为 0， 那么图 2-32 中的 findO 函数 会返回 TRUE, 否则 就返回 FALSE。 
如果表 为空， 它 就返回 FALSE, 而如果 第一个 元素是 0, 就返回 TRUE, 不然 的话， 就对表 其余部 
分执 行递归 调用， 并 返回为 剩余部 分生成 的任何 答案。 证明： findO 可以正 确地确 定表中 是否岀 
现元素 0。 需要归 纳证明 的命题 SG0 是 什么？ 作为 依据的 / 值是 多少？ 

(4)  * 证明： 图 2-24 中的 merge 函 数和图 2-27 中的 split 函 数会按 2.8 节 中所说 的那样 执行。 

(5)  用 “最少 反例” 直 观地证 明从以 0 和 1 两个值 为依据 开始的 归纳证 明是有 效的。 

(6)  ** 证明 2.7 节习题 (8) 中用 C 语言 实现的 递归的 最大公 约数算 法的正 确性。 

2.10 小结 

我们从 本章学 习到了 以下 知识。 

□ 归纳 证明、 递归定 义和递 归程序 是紧密 相关的 概念。 它 们要想 “起作 用”， 都依赖 于依据 
和归纳 步骤。 

□在 “普通 归纳” 或 者说是 “ 弱归纳 ”中， 成功的 那一步 骤只依 靠它的 前一个 步骤。 我们 
经 常需要 进行完 全归纳 证明， 而完 全归纳 中每 个步骤 都取决 于之前 的所有 步骤。 

□进行 排序的 方法有 很多。 选择 排序是 一种简 单但速 度很慢 的排序 算法， 而 归并排 序是一 
种速度 比较快 但比较 复杂的 算法。 

□ 归纳 是证明 程序或 程序段 能正确 运转的 关键。 

□ 分治法 是一种 用来设 计某些 优秀算 法 （ 比 如归并 排序） 的实用 技术。 它的 工作原 理是将 
问题 分为独 立的子 部分， 然 后将得 到的结 果结合 起来。 

□ 表达式 天生是 由它们 的操作 数和运 算符按 照递归 方式定 义的。 运算 符可以 按照它 们接受 
参数的 数量来 分类： 一元 运算符 （一 个参 数）、 二元 运算符 （两个 参数） 以 及&元 运算符 
(灸 个参 数)。 还有， 岀现 在两个 操作数 之间的 二元运 算符是 中缀运 算符， 而 出现在 操作数 
之 前的是 前缀运 算符， 出现 在操作 数之后 的则是 后缀运 算符。 

2.11 参 考文献 
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程 序的运 行时间 


在第 2 章中， 我 们看到 两种截 然不同 的排序 算法： 选 择排序 和归并 排序。 其实 排序算 法有很 
多种， 常 见的情 况是通 常每一 个可以 解决的 问题都 可以通 过多种 算法来 解决。 

那么， 应该 如何选 择解决 给定问 题的算 法呢？  一般 来说， 应该选 择易于 理解、 实现 和记录 
的 算法。 当 性能很 重要时 （它 往往确 实很重 要）， 还需 要选择 能够迅 速运行 而且能 有效使 用可用 
计算 资源的 算法。 因此， 我们 要考虑 一些很 微妙的 问题， 即 如何衡 量程序 或算法 的运行 时间， 
以 及可以 采取哪 些措施 使程序 运行得 更快。 

3.1 本章主 要内容 

本 章中， 我 们将介 绍以下 主题。 

□ 程 序性能 的重要 指标。 

□ 评 估程序 性能的 方法。 

□ 大 0 表 示法。 

□ 使用大 0 表 示法估 算程序 的运行 时间。 

□ 使用递 推关系 估算递 归程序 的运行 时间。 

3.4 节和 3.5 节介 绍的大 0 表 示法， 免去 了处理 那些几 乎不可 能确定 的常量 （比如 常见的 C 语 
言编 译器在 编译某 个给定 的源程 序时会 生成的 机器指 令数） 的 麻烦， 从而 简化了 估算程 序运行 
时间的 过程。 

我们将 循序渐 进地介 绍估算 程序运 行时间 所需的 技巧。 3.6 节和 3.7 节会 展示分 析不含 函数调 
用的 程序的 方法。 3.8 节将 分析具 有非递 归函数 调用的 程序。 接着 3.9 节和 3.10 节会 介绍如 何处理 
递归 函数。 最后， 3. 11 节将 讨论递 推关系 的解决 方案， 在分 析递归 函数的 运行时 间时， 对这些 
函数的 归纳定 义即称 为递推 关系。 

3.2 算法 的选择 

如 果需要 编写的 程序只 是一次 性处理 少量数 据后就 弃之不 用的， 就应该 选择自 己所 知的最 
容易 实现的 算法， 编写 并调试 程序， 然后就 不用多 管了。 不过， 如 果需要 编写在 很长一 段时间 
里由 很多人 使用和 维护的 程序， 就 会岀现 其他问 题了。 其一 就是底 层算法 的可理 解性， 或者说 
是简 单性。 要 求算法 简单的 原因有 不少， 不过 最重要 的也许 在于， 与复杂 的算法 相比， 简单的 
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算法实 现起来 不容易 出错。 用简 单算法 实现的 程序， 哪怕 在使用 相当长 一段时 间后， 遇 到一些 
意 夕卜输 人时曝 岀奇怪 bug 的可 能性也 较小。 

应该将 程序写 得清晰 明确， 并仔细 地记下 文档， 这样 可便于 他人维 护这些 程序。 如 果算法 
简单 且易于 理解， 就 更易于 描述。 有 了好的 文档， 原 作者之 外的程 序员就 能方便 地对原 始程序 
加 以修改 （原 作者 经常不 会做这 些）； 或者， 如果 程序完 成得比 较早， 原作者 也会对 其加以 修改。 
有很多 程序员 写岀巧 妙高效 的算法 后就从 公司拍 屁股走 人了， 结果 后续的 代码维 护者只 能放弃 
他们的 算法， 转而 用更慢 但更好 理解的 算法来 代替， 这种情 况屡见 不鲜。 

当 程序要 重复运 行时， 它的 效率以 及其底 层算法 的效率 就很重 要了。 我们通 常会将 效率与 
程序运 行所花 的时间 挂钩， 虽然有 时程序 也必须 占用一 些其他 资源， 比如： 

(1)  程序变 量占用 的存储 空间； 

(2)  程序在 计算机 网络中 产生的 流量； 

(3)  必须 出入磁 盘的数 据量。 

不过， 对大 的问题 来说， 对给 定程序 是否堪 用起着 决定性 作用的 是运作 时间， 而本 章的主 
题就 是运行 时间。 我们所 要讲的 程序的 效率， 其实 就是它 耗费的 时间， 是 用程序 输入大 小的函 
数来衡 量的。 

通常， 可 理解性 和效率 是相互 矛盾的 目标。 例如， 比 较过图 2-3 中 的选择 排序程 序和图 2-32 
中的归 并排序 程序的 读者肯 定都会 认同， 后 者不仅 更长， 而且 难理解 得多。 就 算我们 总结了 2.2 
节和 2.8 节 中给出 的那些 解释， 在程 序中添 加了经 过深思 熟虑的 注释， 结 果依然 如此。 不过 ，也 
正 如我们 将要了 解的， 只 要待排 序的元 素个数 过百， 归并排 序的效 率就会 比选择 排序的 效率高 
得多。 不巧 的是， 这种 情况太 普遍了 —— 对大 数据量 来说有 效率的 算法， 编写和 理解起 来往往 
比那些 相对低 效的算 法更加 复杂。 

算法 的可理 解性， 或者 说是简 单性， 是有些 主观的 概念。 我们 可以在 某种程 度上克 服算法 
不够 简单的 问题， 即在注 释和程 序文档 中对算 法进行 到位的 解释。 编写文 档的人 始终要 考虑阅 
读这些 代码及 其注释 的人： 一般 人能明 白这是 在说什 么吗？ 是否 需要进 一步的 解释、 细节 、定 
义和 示例？ 

另一 方面， 程 序的效 率是个 客观的 问题： 程 序所花 的时间 就是那 么多， 没什么 争议的 余地。 
不 过我们 没办法 用所有 可能的 （通 常是无 数的） 输入 来运行 程序。 因此， 我们要 对程序 运行时 
间加以 度量， 因为它 总结了 程序处 理所有 输入的 性能， 通常 是用一 个诸如 “n2，， 这样的 简单表 
达 式来度 量的。 本章 下面几 节的主 题就是 如何度 量程序 的运行 时间。 

3.3 度量运 行时间 

一旦我 们认同 可以通 过度量 程序的 运行时 间对程 序加以 评估， 就要面 对确定 实际运 行时间 
的 问题。 总结运 算时间 的两种 主要方 法是： 

(1)  基准 测试； 

(2)  分析。 

我 们将依 次介绍 这两种 方法， 不过 本章主 要讲的 还是用 于分析 程序或 算法的 技术。 

3.3.1 基 准测试 

在比较 用于完 成相同 任务的 两个或 多个程 序时， 制定一 小组可 用作基 准的典 型输入 是一种 
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惯例。 也就 是说， 我 们愿意 接受基 准输入 作为这 些任务 组合的 代表， 并假 设能顺 利处理 基准输 
入的 程序能 顺利处 理所有 输入。 

例如， 评估排 序算法 的基准 可能包 含一小 组数字 （比 如圆周 率的前 20 位数 字）、 一个 中等规 
模的 输入组 （ 比 如得克 萨斯州 的邮政 编码集 合）， 以及一 个大规 模输人 组 （ 比如布 鲁克林 区电话 
目录中 的电话 号码集 合)。 我们可 能还想 知道， 在对 空集、 单元 素集以 及已排 序表排 序时， 程序 
是否能 有效及 正确地 工作。 有趣 的是， 有些排 序算法 在处理 已排序 表时的 性能惨 不忍睹 。 a: 


90-10 法则 

与基 准测试 一样， 确定要 分析的 程序在 哪里花 了时间 通常也 是很实 用的。 这 种评估 程序性 
能的 方法称 为剖析 ( profiling  ), 而且 多数程 序设计 环境都 包含有 剖析器 ( profiler ) 这种 工具， 
会为 程序中 每 条语句 关联一 个表 示执行 这条语 句所 花时间 的 数字。 还有 一种相 关 的实用 程序， 
名叫 语句计 数器， 用 于确定 对于给 定的输 入集， 源程序 中每条 语句执 行的次 数。 

很 多程序 都具有 这样的 特性， 即大部 分运行 时间都 花在一 小部分 源代码 上了。 有这 么一条 
非 正式的 法则：  90% 的运 行时间 花在了  10% 的代 码上。 尽管准 确的百 分比是 视程序 而定的 ，不 
过  “90-10 法 则”还 是表明 了多数 程序中 运行时 间主要 花在了 哪里。 想 要加快 程序运 行速度 ，最 
简单 的一种 方法就 是对程 序加以 剖析， 并 对程序 “ 热点” （也 就是 程序中 花掉大 部分运 行时间 
的 部分） 的代 码加以 改进。 例如， 我 们在第 2 章中提 到过， 用等价 的迭代 函数替 代递归 函数是 
可能为 程序提 速的。 不过， 这种 做法只 有在递 归函数 正好是 程序中 占用大 部分运 行时间 的部分 
时才 奏效。 

在 极端情 况下， 即便 我们将 只占用 10% 时 间的那 90% 的 代码所 花的时 间变为 0， 程 序总的 
运行时 间也只 减少了  10%。 然而， 如果将 10% 的程 序所占 用的那 90% 的时间 减半， 总运 行时间 
就 将减少 45%。 


3.3.2 对程序 的分析 

要分析 程序， 首先要 按大小 为输入 分组。 正如在 2.9 节中 与证明 递归程 序属性 一起讨 论的那 
样， 用 来表示 输入大 小的度 量是因 程序而 异的。 对排 序程序 来说， 待排序 元素的 数量就 是个很 
不错的 度量。 对于求 解《元 线性方 程组的 程序， 拿《作 为问题 的大小 是很平 常的。 其他的 程序可 
能使 用某个 特定输 入的值 作为程 序输入 的表的 长度， 或作为 输人的 数组的 大小， 或是诸 如此类 
的 度量的 组合。 

3.3.3 运 行时间 

用函数 r(«) 来表示 程序或 算法处 理大小 为《的 任意输 入所花 的时间 是很方 便的。 我们将 
r(«) 称 为程序 的运行 时间。 例如， 某个程 序的运 行时间 可能是 rU)  =  ^， 其中 c 是某个 常数。 
换 个说法 就是， 该程序 的运行 时间， 与其要 处理的 输入的 大小是 线性相 关的。 这 样的程 序或算 
法就是 线性时 间的， 或者 直接说 成是线 性的。 


① 选择排 序和归 并排序 都不在 此列， 它们在 处理有 序列表 时所花 的时间 几乎与 为相同 长度的 任一列 表排序 所花的 
时间 相同。 
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small  =  i; 

for(j  =  i+1;  j  <  n;  j++) 
if  (A[j]  <  A  [small] ) 
small  =  j ; 


我们可 以将运 行时间 r(«) 看 作程序 执行的 c 语言 语句的 数量， 或是在 某标准 计算机 上运行 
程序 所花的 时长。 在 多数情 况下， 我们都 不会明 确指岀 r(«) 的具体 单位。 事 实上， 正如 我们在 
下 一节中 将要看 到的， 在谈论 程序的 运行时 间时， 可以只 用某个 （未 知的） 常数因 子乘上 rU) 
来表 7K0 

很多 时候， 程序的 运行时 间取决 于某个 特定的 输入， 而 不仅仅 取决于 输人的 大小。 在这类 
情 况下， 我们将 r(«) 定义为 最坏情 况运行 时间， 也就 是所有 大小为 《 的输 入所能 造成的 最大运 
行时间 。 

另一 种常见 的性能 度量是 ravg(«) ， 即 程序处 理所有 大小为 〃的输 人的平 均运行 时间。 平均运 
行时 间有时 候是对 实际性 能更为 现实的 反映， 不 过它往 往比最 坏情况 运行时 间更难 计算。 “平均 
运行时 间”中 “平均 ”的概 念还意 味着， 所有 大小为 《的 输入是 等可能 性的， 而这在 某个给 定情况 
下 既可能 为真， 也 可能不 为真。 

♦ 示例 3.1 

让我 们估算 一下图 3-1 中 所示的 SelectionSort 程序段 的运行 时间。 这些语 句的编 号与图 
2-2 中的编 号如岀 一辙。 这段代 码的目 的是要 将数组 A 从 A [ i ] 到 A  [n-i] 这 部分中 最小元 素的下 
标 赋值给 small。 


图 3-1 选择排 序的内 层循环 

一 开始， 我 们需要 对时间 单位加 以简单 定义。 后面 我们会 详细介 绍这一 问题， 不过在 这里， 
以下 简单模 式是有 效的。 可以 将每次 执行赋 值语句 记作一 个时间 单位。 在第 (3) 行， 要为 for 循 
环开头 j 的初 始化 记上一 个时间 单位， 为测试 是否有 /<«记 上一个 单位， 并 为减少 j 记上 一个单 
位， 每次循 环皆是 如此。 最后， 每执行 一次第 (4) 行的 测试， 就要记 上一个 单位。 

首先， 让 我们考 虑一下 内层循 环的循 环体： 第 (4) 行和第 (5) 行。 第 (4) 行的 测试总 是要执 行的， 
不过第 (5) 行 的赋值 只有在 测试成 功的情 况下才 执行。 因此， 该 循环体 会消耗 1 到 2 个时间 单位， 
这取决 于数组 A 中的 数据。 如 果要采 纳最坏 情况， 就可 以假设 循环体 要消耗 2 个时间 单位。 我们 
会进行 《-/-1 次 for 循环， 而每 进行一 次循环 都要执 行一遍 循环体 （  2 个 时间单 位）， 接 着递增 j 
并测试 (又是 2 个 时间单 位)。 因此， 进行循 环所花 的时间 单位是 4(«-/-1)。 除了 这个数 
字 之外， 我 们还要 加上第 (2) 行 初始化 small 的 1 个时间 单位， 第 (3) 行 初始化 j 的 1 个时间 单位， 
以 及在第 (3) 行第一 次测试 j<n 的 1 个时 间单位 （ 这与 循环的 任一次 迭代的 终止无 关)。 因此 ，图 
3- 1 中 的程 序段的 总运行 时间为 -0-1  ° 

将图 3-1 所影响 数据的 “ 大小”  m 指定为 m  =  是很自 然的， 因为 这是它 所影响 的数组 
A  [  i  .  .n-1] 的长度 。那 么运 行时间 4(n  -i)-\ 就可以 表示为 4m- 1 。 因此， 图 3-1 的运 行时间 T(m) 
就是 4m  - 1 。 

3.3.4 不同运 行时间 的比较 

假设 对某个 问题， 可以 选择使 用运行 时间为 &(«)  =  100 〃的 线性时 间程序 A, 以及运 行时间 
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为 TB(n)  =  2n2 的二 次幂时 间程序 B。 假设这 两个运 行时间 是在同 一特定 计算机 上处理 大小为 《 的 
输入所 花的毫 秒数。 ® 运 行时间 图见图 3-2。 


输入 大小为 《 

图 3-2 线性程 序与二 次幂程 序的运 行时间 


从图 3-2 可知， 对大 小小于 50 的输人 来说， 程序 B 要比 程序 A 快。 当输 入的大 小大于 50 时， 
程序 A 就要更 快了， 而且从 50 这个 临界点 开始， 输入 越大， 程序 A 相比 程序 B 而言 优势就 越大。 
对 大小为 100 的 输入， A 要比 B 快上 2 倍， 而对 大小为 1000 的 输人， A 要快上 20 倍。 

程 序运行 时间的 函数形 式最终 确定了 我们能 用该程 序解决 多大的 问题。 随着 计算机 速度的 
不断 变快， 与运行 时间增 长迅速 的程序 相比， 那些运 行时间 增长缓 慢的程 序在可 处理问 题的规 
模上 能取得 更大的 提高。 

再次 假设图 3-2 所 示的程 序运行 时间是 以毫秒 计的， 图 3-3 中的 表格表 示了在 同一台 计算机 
上， 花 同样的 时间， 使用 两种程 序分别 能解决 多大的 问题。 例如， 假设可 以接受 100 秒 的计算 
时间。 如 果计算 机的速 度加快 1 0 倍， 那么在 1 00 秒内 能处 理之前 需要花 1 000 秒去 处理的 问题。 
对算法 A 来说， 我们 现在可 以解决 10 倍 大小的 问题， 而 对算法 B 来说， 只可 以解决 3 倍大 小的问 
题。 因此， 随 着计算 机速度 的持续 加快， 通过 使用低 增长率 的算法 和程序 可以获 得更为 显著的 
优势。 


时间 （秒） 

使 用程序 A 可解 决的最 大问题 的大小 

使 用程序 A 可解 决的最 小问题 的大小 

1 

10 

22 

10 

100 

70 

100 

1000 

223 

1000 

10000 

707 

图 3-3 在 可用时 间段函 数可解 决问题 的大小 


①这里 A 和 B 的 关系， 与归 并排序 和选择 排序的 关系没 有太多 不同。 我们在 3.10 节 中将会 看到， 归并 排序的 运行时 
间是以 《1%«的 速度增 长的。 
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别在乎 算法的 效率， 再等 上几年 就行了 

大家 可能经 常听到 这样的 说法、 不需 要缩短 算法的 运行时 间或是 选择更 高效的 算法， 因为 
计算机 的速度 每隔几 年就会 翻番， 而且 不需要 多久， 任何 算法， 不 管有多 低效， 所花的 时间都 
会少到 没 有人在 意了。 这 一论调 的 出现已 经 有几十 年的时 间了， 但计 算资源 需求上 限尚未 出现， 
因此， 我们 一般都 不接受 硬件改 善可以 让高效 算法的 研究变 成无用 功这种 观点。 

不过， 也存在 我们不 需要过 分考虑 效率的 情况。 例如， 某所学 校在每 学期期 末都要 将存储 
在某 台计算 机中的 学生电 子成绩 表打印 成纸质 成绩单 。该操 作所花 的时间 大概与 要报告 的成绩 
数量 成线性 关系， 就像假 想算法 J 那样。 如 果学校 更换了 一台速 度快上 10 倍的计 算机， 完成这 
项工 作所花 的时间 就会变 为原来 的十分 之一。 不过， 学 校因此 要扩招 10 倍， 或是 要求每 个学生 
增加 10 倍的 课程， 这是 很不现 实的。 计 算机的 提速不 会影响 到成绩 单程序 的输入 大小， 因为这 
一大小 是受其 他因素 限 制的。 

另一 方面， 还会 存在另 外一些 问题， 我们凭 借新兴 的计算 资源有 了一些 解决的 头绪， 不过 
它们的 “大小 ”却超 出了现 有技术 的处理 能力。 这样的 问题包 括自然 语言的 理解、 计算 机视觉 
(对数 字化图 像的理 解）， 以 及各种 对人机 “智能 ”交互 的尝试 。 不 管是通 过改善 算法还 是通过 
提 升机器 性能， 所获 得的加 速都将 提升我 们在接 下来几 年里处 理这些 问题的 能力。 此外， 当它 
们变成 “简单 ”的问 题后， 我 们现在 很难想 象的新 一代挑 战又会 替代它 们摆在 计算机 面前。 


3.3.5  习题 

(1)  考虑 一下图 2-13 中的 阶乘程 序段， 设输人 大小为 读取的 n 的值。 每 次执行 赋值、 读和 写语句 记为一 
个时间 单位， 每进 行一次 while 循环条 件测试 记为一 个时间 单位， 计算 该程序 的运行 时间。 

(2)  为 2.5 节习题 (1) 以及图 2-14 中的 程序段 给出恰 当的输 人大小 ^ 运用上 一题中 的计数 规则， 确 定这两 
个程序 的运行 时间。 

(3)  假 设程序 A 花费 2V 1000 个时间 单位， 程序 B 花费 1000«2 个时间 单位。 对哪 些《 值来 说， 程序 A 花 
的时间 比程序 B 少？ 

(4)  对上 一题中 的两个 程序， 在 106 个、 109 个和 1012 个时 间单位 内能解 决的问 题各有 多大？ 

(5)  假 设程序 A 花费 lOOOn4 个时间 单位， 程序 B 花费 个时间 单位， 重 复习题 (3) 和习题 (4) 中的 练习。 

3.4 大 0 运行 时间和 近似运 行时间 

假设我 们编写 了一个 c 语言 程序， 并选择 了想要 它处理 的特定 输入。 程序处 理这一 输人的 
运行时 间仍取 决于以 下两个 因素。 

(1)  运 行该程 序的计 算机。 一些计 算机执 行指令 的速度 比其他 计算机 更快， 最 快的超 级计算 
机 与最慢 的个人 计算机 之间的 性能比 远大于 1000  :  1。 

(2)  生 成计算 机可执 行程序 所使用 的特定 C 语言编 译器。 在同 一计算 机上， 执 行不同 程序所 
用 的时间 是不一 样的， 即便 这些程 序有着 相同的 功效。 

这样 一来， 我 们就不 能看着 C 语言程 序及其 输入， 然后判 断说： “这 个任务 要花上 3.21 秒。” 
除 非知道 用的什 么计算 机和编 译器。 此外， 就算我 们知道 程序、 输人、 机 器和编 译器， 要准确 
预计 将要执 行的机 器指令 数通常 也是一 项过于 复杂的 任务。 
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出 于这些 原因， 我们通 常用大 0 表示 法来表 示程序 的运行 时间， 该方 法让我 们可以 不去考 
虑如 下常数 因子。 

(1)  特 定编译 器生成 机器指 令的平 均数。 

(2)  特定计 算机每 秒执行 机器指 令的平 均数。 

例如， 就像 在示例 3.1 中 那样， 我们 研究的 SelectionSort 程序 段处理 长度为 m 的数 组将 
耗时 4m -1。 不过 这里我 们不这 么说， 而是说 它耗时 0(m) ， 非 正式的 含义是 “ 某个常 数乘以 w”。 

“ 某个常 数乘以 m” 这一 表述不 仅能让 我们忽 略那些 与编译 器和计 算机相 关的未 知常数 ，还 
让我们 可以作 岀一些 起简化 作用的 假设。 例如， 在示例 3.1 中， 假设 所有的 赋值语 句会消 耗长短 
相同 的一段 时间， 而 在测试 for 循环的 终止、 随着 循环进 行递增 j， 以及进 行变量 初始化 等工作 
时， 也都 会消耗 这样长 的一段 时间。 因 为这些 假设在 实际情 况中都 是不可 能的， 所以在 运行时 
间方程 r(m)=  4m-l 中， 常数 4 和 -1 是 对事实 的最佳 逼近。 可 以更近 似地将 r(m) 描述为 “某个 
常 数乘以 m， 再加上 或减去 某个常 数”， 甚至 描述为 “ 最多与 m 成正 比”。 0(m) 表 示法使 我们可 
以 在不涉 及不可 知或无 意义常 数的情 况下作 出这些 陈述。 

另一 方面， 将程序 段的运 行时间 表示为 也告诉 我们一 些非常 重要的 事情。 它 表明， 
执行处 理逐步 变大的 数组的 程序， 所花的 时间是 线性增 长的， 就像 3.3 节末 尾的图 3-2 和图 3-3 中 
假想 的程序 A 那样。 因此， 该 程序段 表示的 算法， 优 于运行 时间增 长更快 的算法 （比如 在上文 
的 讨论中 与程序 A 相对 比的假 想程序 B  )。 

3.4.1 大 0 的定义 

我们现 在要给 岀某个 函数是 另一个 函数的 “大 0”  的正式 定义。 设 有函数 2X4, 这 通常是 
某 个程序 的运行 时间， 以输入 大小为 〃的函 数来 度量。 要 让函数 适用于 度量程 序的运 行时间 ，我 
们假 设有： 

(1)  参数〃 被限定 为非负 整数； 

(2)  值 r(«) 对所有 的参数 《 来说都 非负。 

设 /(«)是 某个定 义在非 负整数 〃之上 的函数 如 果除了 对某些 较小的 《值 之外， r(«) 至多是 
某个常 数乘以 /(«) ， 我们就 可以说 
“r ⑻是 0(/ ⑻) ”。 

正式 地说， 如果存 在某个 整数％ 以及某 个大于 0 的常数 c， 使得 对所有 大于％ 的整数 〃，都 
有 r ⑻彡 c/ ⑻， 么我 们就说 r ⑻是 <9( / ⑻）。 

我们 把数对 和 C 称为 “  r(«) 是 ” 这一事 实的证 物 （ witness  )。 在接下 来的证 明中， 
该证物 可以为 r ⑻和 /(«) 的大 0 关系 “作 证”。 

3.4.2 证明大 0 关系 

可 以应用 “大 0”  的定 义证明 对特定 的函数 Ttq/， r ⑹就是 0(/ ⑻）。 我们 会通过 选择特 
定的证 物《 。和 c， 接 着证明 ro) 彡 c/0)， 从而完 成这一 证明。 证明 过程必 须假设 《 是非负 整数， 
且不 小于我 们选择 的％。 通常， 证明过 程涉及 一些代 数和不 等式的 变换。 

♦ 示例 3.2 

假设 有某个 程序， 其运行 时间为 r(0)  =  1 ， 7X1)  =  4 ， r(2)  =  9 ， 一般 表示为 7XW  =  (n  +  \)2o 
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我们就 可以说 7(«)是<9(«2) ， 或者说 r(«) 是二次 幂的， 因为 可以选 择证物 《。=1 和 c  =  4。 然后 
需 要证明 (《  + 1)2  <  4«2 ， 其中有 《  ^  1 。 在 证明过 程中， 我们将 表达式 (^  +  I)2 展开为 +  2/7  +  1 。 
只要 〃彡 1， 我们就 知道有 《彡《2 而且有 1彡《2。 因此 

n2  +2n  +  l^：n2  +  2n2  +n2  =  4n2 

此外， 也可 以选择 证物％  =3 和 c  =  2 ， 因为， 正 如大家 可以验 证的， 对 所有的 《 彡 3, 都 
有 0  +  1)2 彡 2«2。 

不过， 不能 选择％  =0, 因为若 《。=0, 那么对 《  =  0, 我们可 以证明 (0  +  1)2 彡 cO2, 也就是 
有 1 小 于等于 c 乘以 0。 因为 不管选 择什么 c， 都有 cx0  =  0, 而 ISO 是不成 立的， 所以如 果我们 
选择 《。=0 就玩 完了。 不过没 关系， 因为 要证明 (《  +  1)2 是 0(«2)， 所 以只要 找出一 组可行 的证物 
n0 和 c 就行 了。 


大 0 证明 的模版 

请 记住： 所 有的大 0 证明基 本遵循 相同的 形式， 只有 代数变 换是各 异的。 要证明 r(«) 就是 
o(/(«»  , 要做 的只有 下面两 件事。 

(1)  说明 证物 和 c。 这 些证物 必须是 特定的 常数， 比如 《。 =  47 和 c  =  12.5 。 还有， 必须 
是非负 整数， 而 c 必须 是正 实数。 

(2)  通过适 当的代 数变换 ，证 明对所 选择的 特 定证物 和 c ， 如果 《 彡 ， 则有 
T(n)^cf(n)  o 


这可 能看起 来有些 奇怪， 虽然 (〃  +  1)2 大于 《2, 但 是我们 还是说 (《  +  1)2 是 0(«2)。 其实 ，也 
可以说 (《  +  1)2 是任 意分之 的大 0, 例如 0(«2/100)。 要看 看原因 的话， 选择证 物《。=1 和 
c  =  400。 那 么如果 《 彡 1， 由 与示例 3.2 中一 样的推 导可知 

(«  +  1)2 彡 400(«2/100)  =  4«2 

这些 现象背 后的基 本原则 如下。 

⑴ 常数因 子不产 生影响 。对于 任意正 值常数 d 和任 意函数 r(«) ， r ⑹是 <9(， ㈨）， 不论 d 
是很大 的数， 还是 很小的 分数， 只要 d>o 即可。 要 知道为 什么， 可 以选择 证物％  =0 和 c  =  l/d。 
® 那 么就有 r ⑷彡 c (，⑻ ） ， 因为 d  =  i。 类 似地， 若已知 r(«) 是 0(/0)) , 便 也知道 对任何 
的 A0, 有 r(«) 是 0(# ⑻）， 即便通 艮小。 因 为我们 知道， 对某 个常数 9和 所有的 ， 有 
T (n)  <  c'f  (n) 。 如 果选择 那么 就可以 看到， 对 "彡 《。 ， 有 r(«)  <  c(^/"(«)) 。 

(2) 低阶项 不产生 影响。 假设 r(n) 是形如 

Jr  Ir—l  2 

akn  +ak_ln  + — \-a2n  +  a{n  +  a0 

的多 项式， 其 中开头 的系数 ％ 为 正数。 然后我 们可以 扔掉除 第一项 （就是 具有最 高指数 祕勺那 
项 ）之 外的所 有项， 并利 用规则 (1)， 忽 略常数 & ， 直接用 1 代 替它。 也就 是说， 我们可 以得岀 r(«) 
就是 o(V)。 为了 证明这 一点， 设《。=1， 并设 c 是各 系数 fl,+ 中所有 正系数 的和， 其中 0 彡 / 彡灸。 
如果系 数^7 是 0 或负 数， 那么 肯定有 a7.v 彡 0 。 如 果… 为正， 那么对 所有的 ， 只要 《彡1， 


①请 注意， 虽然要 求选择 常数而 不是函 数作为 证物， 但选择 c  =  1/(/ 是没有 错的， 因为 本身 也是个 常数。 
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都有 。 因此 r(«) 不大于 乘 以所有 正系数 之和， 或者 说是 o/ 


关于大 o 的谬论 

对 “大 0”  的 定义是 彳艮诡 异的， 在该定 义中， 在 检查完 r(«) 和 /0?) 后， 我们 要一次 性选择 
证物 《。 和 c, 接着 证明对 所有的 n0  , 都有 r(«)  ^cf(n)0 不能 为每个 《 值重 新选择 <:和（ 或） 。 
例如， 大 家可能 偶尔会 看到如 下证明 /72 为 (9(«) 的谬误 “证 明”。 “选择 《0=0， 并为每 个《 选择 
c  =  n 。 然后有 彡 c« 。” 这种论 述是无 效的， 因 为我们 要求在 不知道 《的情 况 下一次 性选定 c。 


♦ 示例 3.3 

作 为规则 (1) (  “ 常数 因子不 产生影 响”） 的 例子， 我 们看到 2«3是0(0.001«3)。 令 ％=0, 而 
且 c  =  2/0.001  =  2000。 那么显 然有， 对所有 的《彡0， 2«3 彡2000(0.001«3)  =  2«3。 

作 为规则 (2) (“低 阶项不 产生影 响”） 的 例子， 考虑 多项式 r ⑻ =  3«5+10«4-如3+/7  +  1。 
最高位 的项是 《5, 我 们就说 r(«) 是 (9(«5)。 要 验证该 说法， 令《。=1， C 等 于所有 正系数 的和。 
正 系数的 项包含 指数为 5、 4、 1 和 0 的这 些项， 其系数 分别为 3、 10、 1 和 1。 因此， 令 c  =  15。 我 
们可 以说， 对《彡1， 有 

3n5  +I0n4  -4n3  +  «  + 1  ^  3n5  + 10«5  +n5  +n5  =  I5n5  (3.1) 

我们 可以通 过对正 系数项 的匹配 来验证 不等式 (3.1)， 也 就是， 3n5 彡 3n5 ， 10«4 彡 10«5， 
n^n5, 以及 1 彡 n5。 而且， 因为 -如3 彡 0  (之 前假设 《 为正 数）， 所以可 以忽略 不等式 (3.1) 左 
边 的负系 数项。 因此， 不等式 (3.1) 的 左边， 也就是 r(«) ， 要小于 等于不 等式的 右边， 也就是 15«5 ， 
或者说 是 c«5 。 由 此可 以得岀 r(«) 是 0(n5) 的 结论。 

其实， 低 阶项可 以删除 的原则 不仅适 用于多 项式， 而 且适用 于任何 表达式 之和。 也就 是说， 
如果随 着《 趋近无 穷大， /^)4(«)的比值趋近于0, 贝 Ij 可以说 比 g ⑻ “ 增长得 慢”， 或者说 
/z(«) 的 “ 增长率 低于”  g(n) , 这 样就可 以忽略 。 也 就是说 /z(«)  +  g ■⑻是 。 

例如， 设 r ⑻ =  2"+n3。 众所 周知， 多项式 （ 比如 Y  ) 要比 指数式 （ 比如 2" ) 增长得 慢。 
因为随 着《的 增大， 《3/2” 趋近于 0, 所以我 们可以 扔掉低 阶项， 并得岀 r(«) 是 0(2”） 的 结论。 
要正式 地证明 2K+Y 是 (9(2n) ， 令％  =10， c  =  2。 必须 证明， 对 m 彡 10, 有 

2"+«3  ^2x2" 

如果 从两边 都减去 2〃 ， 就 会发现 这是要 证明对 n^lO, 有 《3 彡 2〃 。 

对《  =  10, 我们有 21G  =1024 。 而 103  =1000， 因此对 《  =  10, 有《3 彡 2"。 n 每增加 1， 2"就 
会 翻倍， 而 则是 会乘以 0  +  1)3/«3 这 个量， 而当 《彡10 时， 这个量 是小于 2 的。 因此， 随着 《 
的 增大， 《3 会逐 步小于 2”。 我们可 以得岀 结论： 对《彡10 ，有 彡 2” ， 因此有 2” +«3 是 0(2”）。 

3.4.3 证明大 0 关系 不成立 

如 果两个 函数之 间的大 0 关系 成立， 就可 以通过 找岀证 物来证 明这种 关系。 然而， 如果某 
个函数 r(«) 不 是另一 个函数 /(«) 的大 0 呢？ 答案 就是， 经 常可以 证明某 个特定 的函数 r(«) 不 
是 o(/(«))。 证明方 法是， 假 设证物 ％ 和 c 存在， 并 推理岀 矛盾。 下面要 介绍这 种证明 的一个 
例子。 
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♦ 示例 3.4 

在前文 附注栏 “ 关于大 0 的谬论 ”中， 我们声 称《* 1 2 不是 0(«)。 我 们可以 证明该 声明， 方法 
如下。 假设 《2 是 <9(«)， 然后就 存在证 物《 。和 C， 使得对 所有的 都有 《2 彡⑺。 不过如 
果我 们选择 ％ 等于 2c 和 ％ 中较 大者， 就会有 不等式 

(n.f^cn,  (3.2) 

一定成 立 （ 因为 ^  «0 , 而且对 所有的 n^n0  ,  n2  ^  cn 都 是成立 的）。 

如果将 不等式 (3.2) 两边都 除以〃 1 ， 就有 qgc。 然而， 我们还 选择了  ％ 至少是 2c。 因为证 
物 c 一定为 正数， 所以 ％ 不可能 既小于 c 又大于 2c。 因此， 可 以证明 “《2 是 0(«)” 的证 物叫和 c 
不 存在， 由此可 以得岀 结论： 《2 不是 0(«)。 

3.4.4  习题 


(1) 考 虑以下 4 个 函数。 

I2 

f2-t 

23 

H 

n2,  n 为奇数 

n  ,n 为偶数 

/4：| 

\n\  n 为质数 
[n3， n 为合数 

对等于 1、 2、 3、 4 的郝 /， 分别确 定乂⑻ 是不是  要 么给岀 证明大 0 关系的 n。 和 c 的值， 

要么假 设存在 这样的 ％ 和 c, 并 推理岀 矛盾， 证明 /(n) 不是 (9(/7(«)；)。 提示： 请 记住， 除了 2 

之外， 所 有的质 数都是 奇数。 还要 记住， 质 数有无 数个， 而合数 也有无 数个。 

(2)  有以下 一些大 0 关系。 请为 每个大 0 关 系给岀 可用来 证明这 种关系 的证物 ％ 和 c。 选 择最小 的一组 
证物， 也 就是说 n。 - 1 和 c 不是 证物， 而如果 d<c  , 那么 n。 和 J 也不是 证物。 

(a)  n2 是  <9(0.001n3) 。 

(b)  25n4 -19n3  +\3>n2  -  106n  +  77 是 0(>4) 。 

(c)  2n+1() 是 0(2")。 

(d)  «10 是 0(3”） s 

(e)  *  log2n  是 0{yfn)  □ 

(3) * 证明： 如果对 所有的 《 有 /(«)<g ⑻， 那么 / ⑻ +g ⑻是 0(g(n))  o 

(4) ** 假设 /(«)是(9& ⑻）， 而且 g(«) 是 (9(/0))。 那么 /(«) 和 g(n) 之间 有什么 关系？ 是不 是一定 
有 /(«)  =  § ⑻？ 随着 《 .趋近 无 穷大， /(«)/g0?) 的极 限是否 一定存 在？ 


证明大 0 关系 不成立 的模板 

证明 函数： T(«.) 不是 0(/0》 的 常见证 明过程 如下。 示例 3.4 就展示 了这样 的证明 过程。 

(1)  首先 假设存 在证物 ％ 和 c, 使得对 所有的 n 多 都有 /(n)  <  cg(«) 。 这里， 和 c 是表 示未知 
证物的 符号。 

(2)  定 义特定 的整数 ％, 用与 ％ 和 c 相关 的形 式表示 （例 如， 在示例 3.4 中， 我们选 择的是 

=  max(«0,2c) ) 。 该  ％  是用 来证明  T(n'X  cf{nx) 的 n 的值。 
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(3)  证明， 对 于这个 选定的 ％, 有 〜彡〜。 这一 部分是 非常简 单的， 因为我 们在第 (2) 步中选 择的％ 
至少是 叫 。 

(4)  声明 因为有 〜 彡％， 所以 一定有 Tin^  c/OO 。 

(5)  通过证 明对我 们选择 的这个 ％ 有 Tin,)  >cf(ni) , 从而 推导出 矛盾。 选择与 c 有关的 ％ 可以 让这个 
部分 变得很 简单， 就 像示例 3.4 中 所做的 那样。 


3.5 简化大 0 表达式 

正如 我们在 3.4 节中看 到的， 通过舍 弃一些 常数因 子和低 阶项， 可以 简化大 0 表 达式。 我们 
将会 看到， 在 分析程 序时， 作出这 样的简 化有多 重要。 一般 来说， 某个程 序的运 行时间 来源于 
程序中 很多不 同的语 句或程 序段， 而 一小部 分程序 占用大 量运行 时间的 情况也 很平常 （由 
“90-10”  法则可 知）。 通 过舍弃 一些低 阶项， 并 将相等 或近似 相等的 项结合 起来， 通常能 大大简 
化 表示运 行时间 的大 0 表 达式。 

3.5.1 大 0 表 达式的 传递律 

首先， 我们 要拿出 考虑大 0 表达式 时的一 个实用 规则。 诸如 < 这样的 关系， 就被称 为传递 
的， 因 为它遵 循“若 J 且5 彡 C ， 则 J 彡 C” 这样的 法则。 例如， 因为 3 彡 5， 5 彡 10, 
所以 我们可 以确定 3 彡 10。 

而 “是/ '的大 0”  这样的 关系是 另一种 具有传 递性的 关系。 也就 是说， 如果 /(«)是<9匕 ⑻）， 
而且 g ⑻是 <9(/?0)) ， 就有 / ⑻是 <9(A(«)) 。 要知道 原因， 首 先假设 / ⑻是 ⑻）。 那么存 
在证物 〜和^， 使得对 所有的 ％， 都有 /(«)<c 名 (《)。 类 似地， 如果 g(n) 是 0(/; ⑻） ，就 
存在证 物 《2 和 c2 ， 使得对 所有的 n^n2  , 都有 g(«) 彡 c2h(n) 。 


多项和 指数大 0 表达式 

多项式 的次数 是指多 项式所 有项中 的最高 指数。 例如， 示例 3.3 和示例 3.5 中 提到的 多项式 
r(«) 的次 数为 5， 因为 其最高 阶项为 3«5。 从我们 已经阐 明的两 个原则 （常 数因子 不产生 影响， 
以及低 阶项不 产生影 响）， 以及大 0 表达 式的传 递律， 可 知以下 几点。 

(1)  如果 /?(«) 和 q{n) 都是多 项式， 3-q{n) 的次 数大于 等于 p(n) 的 次数， 就有 p ⑻是 (9(^(«)) 。 

(2)  如 果^⑻ 的次 数小于 p{n) 的 次数， 那么 p{n) 不是 。 

(3)  指数 式是指 形如〆 的 表达式 （其中 a>l  )。 指数 式要比 多项式 增长得 更快。 也就 是说， 
我们可 以为任 一 多项式 /?(«) 证明， 户(《)是(9(〆)。 例如， 是 (9((1.01)H) 。 

(4)  反 过来， 对 a>l ， 不存在 指数式 〆 为 多项式 p(n) 的 0(芦 ⑻）。 


设《0 是％ 和 二者 中的较 大值， 而且令 csqq。 我们声 称《 。和 C 为 “  / ⑻是 ” 这 
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一事 实的证 物。 这 里假设 《彡《。。 因为 《。 =  max(«p/72) ， 所以我 们知道 《 彡 ％ 且《 彡 。 因此， 
/⑻  <  qg ⑻ ，且  g ⑻  <  c2h(n) 。 

现在用 c2h(n) 替换 不等式 /(«) 彡 qg ⑻中的 g(n) ， 就 证明了  /(«)  <  。 该不等 式就证 明 

了  / ⑻是  0(/K«))  0 

♦ 示例 3.5 

从示例 3.3 中可知 


T(n)  =  3n5  +\0n4  -4«3  +n  +  \ 

是 <9(«5)， 还可以 从规则 “常 数因子 不产生 影响” 中知道 《5 是 0(0.01«5)。 通过大 0 的传 递律， 
可知  r(«) 是 0(0.01«5)。 

3.5.2 描述程 序的运 行时间 

我们之 前对程 序的运 行时间 r(«) 的定 义是， 程序处 理大小 为《 的任意 输入所 耗费时 间单位 
的最 大值。 我们还 说过， 要确定 r(«) 的准确 公式， 就算 不是不 可能， 也 将非常 困难。 通常 ，可 
以用大 0 表达式 作为 r(«) 的 上限， 从 而将问 题大大 简化。 

例如， SelectionSort 程 序的运 行时间 r(«) 的上限 是《«2 ，其中 fl 是某个 常数， 而且 ， 
我 们将在 3.6 节中展 示这一 事实。 然后 可以说 SelectionSort 的运行 时间是 002)。 从 直觉上 
讲， 这一 陈述是 最为实 用的， 因为 是 个非常 简单的 函数， 而且有 关其他 简单函 数的更 强陈述 
(比如  是 0 ⑻”） 都为 假。 

不过， 因为大 0 表 示法的 本性， 还可 以说运 行时间 T(«) 是 0(0.01«2)， 或 6>(7«2 -4«  +  26) ， 
或者是 任何二 次多项 式的大 0。 原因 在于， 是任 意二次 式的大 0, 而根据 传递律 ，就 可以从 r(«) 
是 6>02) 这一事 实得出 r(«) 是任 意二次 式的大 0。 

更糟 的是， 还是 任意三 次或更 高次多 项式， 或 者是任 意指数 式的大 0。 因此， 再 次利用 
传 递性， r(«) 是 0(«3)， 0(2n+n4) , 等等。 不过我 们将会 解释， 为什么 0(«2) 是表示 
SelectionSort 程序 的运行 时间的 首选。 

3.5.3 紧凑性 

首先， 我们 一般都 想要达 到可以 证明的 “ 最紧” 大 0 上界。 也就 是说， 如果 r(«) 是 o(V) ， 
我们 就想作 出这一 表述， 而不 是作出 “r(«) 是 0(«3)”  这种 技术上 正确但 更弱的 表述。 另一方 
面， 这 种方式 又存在 某种疯 狂性， 因为如 果我们 喜欢用 o(«2) 作为 运行时 间的表 达式， 就应该 
更喜欢 o(o.5«2)， 因 为它更 “紧 凑”， 而对 o(o.oi«2) 的喜 爱应 该就更 甚了。 不过， 因 为在大 0 
表达 式中， 常数因 子是不 产生影 响的， 所以 通过缩 小常数 因子让 预估运 行时间 “更 紧凑” 的尝 
试是 没有意 义的。 因此， 只要有 可能， 我 们就会 试着使 用常数 因子为 1 的大 0 表 达式。 

图 3-4 列出 了一些 比较常 见的程 序运行 时间， 以及 它们的 非正式 名称。 特别要 注意， 0(1) 是 
表示 “某个 常数” 的惯 用简写 形式， 而且我 们还将 反复使 用这种 用意的 0(1)。 
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int  PowersOf Two(int  n) 
{ 

int  i ; 
i  =  0; 

while  (n°/02  ==  0)  { 
n  =  n/2; 
i++； 

} 

return  i; 


图 3_4  —些 常见大 O 运 行时间 的非正 式名称 

更精确 地讲， 如 果同时 满足如 下两点 

(1)  r(«) 是 0(/ ⑻）； 

(2)  如果 r(«) 是 ⑻）， 那么 / ⑻是 ⑻) 也为真 （通俗 地讲， 我 们找不 出这样 一个函 
Wig(n) , 它 至少与 r(«) 增 长得一 样快， 却又比 / ⑻增 长得 慢)。 

那么我 们就说 / ⑻是 r(«) 的紧大 0 边界 ( tight  big-oh  bound  )Q 

♦ 示例 3.6 

设 T(«)  =  2«2 +3« ， 而且 /(«)=«2。 我 们说， /(«) 是 T(«) 的 紧边界 （ tightbound  )。 要知道 
为 什么， 先假设 r(«) 是 然后， 存 在常数 c 和 《。， 使得对 所有的 。，有 
T  (n)  =  2n2  +3n^  cg(n)  0 那么对 《 彡 ， 有 g(«) 彡 （2/c)«2 。 因为 /(«)是《2， 所以可 得出， 对 
n^n0  , 有 /0) 彡 (c/2)g(«) 。 因此， /(«) 是 0(g(«))。 

另一 方面， /(«)  =  «3 不是 r(«) 的紧大 0 边界 j 见在可 以选择 §(«)=  «2。 我 们已经 看到， r(«) 
^  0(g(n)) , 不过不 能证明 /(«) 是 ， 因为 不是  <9(«2) 。 因此， 《3 不是 r(«) 的紧大 0 
边界。 

3.5.4 简单性 

在我们 选择大 0 边 界时， 另一 个目标 就是函 数表达 式的简 单性。 与 紧凑性 不同， 简 单性有 
时候是 种偏好 问题。 不过， 一 般还是 可以按 照如下 标准认 定函数 /(«) 是简 单的： 

(1)  它只有 一项； 

(2)  这项的 系数是 1。 


大 0 

非正 式名称 

0 ⑴ 

常数 

0(log«) 

对数 

0{n) 

线性 

0(n  logn) 

nlogn 

0(n2) 

二次 

0(n3) 

三次 

0(2” 

指数 

\ ― /  \ — /  \ ― / 、 ― /  \ — ' / 
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图 3-5 计 算一个 正整数 n 中因数 2 的数量 
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♦ 示例 3.7 

函数 《2 是简 单的， 2«2 则 不是简 单的， 因为系 数不为 1; 而《2+« 也 不是简 单的， 因为它 包含了 
两项。 

不过， 也存 在某些 情况， 其中大 0 紧 凑性的 上界和 简单性 的边界 是相互 冲突的 目标。 简单 
性边 界并不 能说明 一切， 以下就 是一个 例子， 好 在这样 的情况 在现实 中很少 岀现。 

♦ 示例 3.8 

考虑 一下图 3-5 中的 PowersOfTwo 函数， 它会接 受一个 正参数 《， 并计量 《被2 整 除的次 
数。 也就 是说， 第 (2) 行的测 试询问 《 是否为 偶数， 如 果是， 就在第 (3) 行 的循环 体中删 除一个 
因数 2。 同样在 这次循 环中， 我 们递增 i， 而参数 i 的作用 是计量 我们从 n 原本的 值中删 除的因 
数 2 的 个数。 

设输 入的大 小就是 〃本身 的值。 while 循环 的循环 体由两 条语句 组成， 即第 (3) 行和第 (4) 行， 
因 此可以 说执行 该循环 体一次 所需的 时间为 <9 ⑴， 也就是 某个与 《 无关的 不变时 间量。 如果该 
循环 要执行 m 次， 那 么花在 执行循 环上的 总时间 就将是 0(m)， 或者是 某个与 m 成比 例的时 间量。 
为单独 执行第 (1) 行和第 (5) 行， 以 及进行 第一次 while 循 环条件 的测试 （从 技术上 讲不属 于任何 
循 环迭代 的一部 分）， 还要在 这个量 上加上 0(1) 或 者某个 常数。 因此， 该程序 消耗的 时间是 
0(m)  +  0(l)。 根 据低阶 项可被 忽略的 规则， 这一时 间就是 O(m)， 除非 m  =  0, 此 时这个 时间就 
是 0(1)。 换 个说法 就是， 在输人 《上 所花的 时间与 1 加上 2 整除 《 的次数 是成比 例的。 


在 数学表 达式中 使用大 0 表示法 


严格 地讲， 大 0 表 达式在 数学上 正确的 使用方 式只有 出现在 “是” 字后 这一种 情况， 比如 
“2«2 是 <9(«3)”。 不过， 在示例 3.8 以及 本章余 下的内 容中， 我们 将直接 把大 0 表 达式当 作加号 
以及 其他算 术运算 符的操 作数， 比如 表示为 0( … +  <9(«2)。 应将 这样使 用的大 0 表达式 解释成 
“ 作为大 0 的 某个函 数”。 例如 <9(«)  +  <9(/72) 就表示 “某个 线性函 数和某 个二次 函数的 和”。 此 夕卜， 
0(n)  +  T(n) 应该解 释为某 个线性 函数与 某个特 定函数 T(«) 的和。 


« 能被 2 整除多 少次？ 对每 个奇数 《 来说， 答案为 0。 所以对 每个奇 数《， 都有 PowersOfTwo 
函 数花的 时间为 0 ⑴。 不过， 当《是2 的 乘方， 也就 是说当 《 对某个 而言是 2A '时， 2 能整除 《 的次 
数 正好是 t 当《  =  24 时， 可以 在等式 两边同 时取以 2 为底的 对数， 得到 log2«  =  h 也就 是说， 

W 至多是 《的 对数， 或者说 w  =  (9(log  «) 。 ® 

因此， 可以说 PowersOfTwo 的运行 时间是 (9(log«) 。 这一 边界满 足了我 们对简 单性的 定义。 
不过， 还有 更精确 的方法 来统计 PowersOfTwo 运行 时间的 上界， 这就 是说， 它 是函数 
/ ⑻ =  m(«)  +  l 的大 0, 其中 m ⑻是 《被2 整除的 次数。 如图 3-6 所示， 该函数 一点都 不简单 。它 
的值 在剧烈 摆动， 但从没 有超过 1  +  log2  。 


①请 注意， 在大 0 表 达式中 说到对 数时， 是 不需要 指出底 数的。 原因 在于， 如 果底数 分别为 《 和 那么 
loga  n  =  (logA  «)(loga  6) 。 因为 loga  6 是个 常数， 所以可 以看到 log„  h 和 logfc « 只有一 个常数 因子的 差别。 因此， 
函数 log  j 对于 任何不 同底数 x 来说都 互为大 0, 所以 根据传 递律， 可 以在大 0 表达 式中用 任意的 log6« 来代替 
loga« ， 其中 Z) 是 不同于 a 的底 数。 
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图 3-6 函数 f(n)  =  m(n)  +  l, 其中 m(n) 是 n 被 2 整除的 次数 

因为 PowersOfTwo 的运行 时间是 ， 而 log« 又不是 ， 所以 可以说 log« 不是 
该程序 运行时 间的紧 边界。 另一 方面， /(«) 是紧 边界， 但它不 简单。 


运行 时间中 的对数 

如果 要考虑 的算法 需要处 理积分 （ lna=  f-djc  ), 大家 可能会 因为它 们出现 在算法 的分析 

J 1  x 

中 而感到 惊讶。 计算 机科学 家们通 常会把 “log«” 考虑为 log2«, 而不是 ln/7 .和 lg«。 请 注意， 
log2  « 就是将 《 除以 2 直 到得到 1 为止的 次数， 或 者换句 话说， 是为 了得到 《， 相乘的 2 的个数 。大 
家可 能很容 易看出 , n^2k 其 实和说 log2  n  =  k 是一 样的， 只要在 两边同 时取以 2 为底 的对数 即可。 

PowersOfTwo 函 数会尽 可能多 次地用 2 整除 《， 而且当 《是2 的乘 方时， 《 能被 2 整除 的次数 
就是 log2«。 对数 在对分 治算法 （就 是在 每个阶 段将输 入等分 为两个 部分， 或者 分为近 似相等 
的两 部分的 算法， 比如归 并排序 算法） 的分 析中会 频繁地 出现。 如果 我们一 开始有 大小为 《的 
输入， 那么将 输入对 半分， 直到 大小为 1 的阶 段数是 log2« 。 或者， 如果 《 不是 2 的 乘方， 就是 
比 log2  n 大 的最小 整数。 


3.5.5 求 和规则 

假 设某个 程序由 两部分 组成， 一部分 耗费的 时间是 ， 而另 一部分 消耗的 时间为 
003)。 可 以将这 两个大 0 边界 “相 加”， 从而 得岀整 个程序 的运行 时间。 在很多 情况下 （包括 
上述情 况）， 通过 应用如 下求和 规则， 可 以将大 0 表达式 “相 加”。 

假设 已知 忑(《) 是 (^(/(”)）， 而且 r2 ⑹是 <9(/2 ⑻）。 此外， 假设 /2 的增 长率 不大于 / 

的增 长率， 也就 是说， /2(«) 是 0 (/(«)) 。 那 么就可 以得出 ⑻) "”的 
结论。 

要证 明这一 规则， 我们 知道存 在常数 Cl、 c2、 c3、 叫、 《2和《3, 使得 

(1)  如果 《 彡 ％， 则 fux  q/办） ； 

(2)  如果 《  彡 ，则  T2(nX  c2f2(n) ; 

(3)  如果 《  彡 ，则  /2  (n)  ^  c3/(«) 。 

设《0 是乃 1、 《2和《3 中 最大的 那个， 则当 。时， ⑴、 （2) 和⑶者 | 诚; 立。 因此， 对 。，有 

Tx  (n)  +  T2  (n)  ^  cjx  (n)  +  c2f2  (n) 

如 果使用 (3) 提供 /2(«) 的上 边界， 那么 完全可 以消去 /2 (/7)， 并得出 
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axm=mxa=m 

scanf  ("°/0d" ，&n) ; 

for  (i  =  0;  i  <  n;  i++) 

for  (j  =  0;  j  <  n;  j++) 
A[i]  [j]  =  0; 
for  (i  =  0;  i  <  n;  i++) 

A[i]  [i]  =  1; 


Tx{n)  +  T2{n)^cJx{n)  +  c2cjx{n) 

因此， 如 果定义 cSCl+c2c3 ， 就证明 了对于 所有的 。，有 

7； ⑻ +  7t20)<c/10) 

这一 命题刚 好就是 我们需 要得出 的结论 —— r,(«)+r2 ⑹是 o  ⑻）。 

♦ 示例 3.9 

考虑 一下图 3-7 中的程 序段。 该程 序会使 A 成为 《 阶单位 矩阵。 第 (2) 行至第 (4) 行在该 二 
维数组 的每个 单元中 都放上 0， 接着第 (5) 行和第 (6) 行 会在从 A  [0]  [0] 到 A[n-1]  [n-1] 的对角 
线线上 的位置 中放入 1。 结果就 形成了 具有对 于任意 矩阵 M 都有 如下属 性的单 位矩阵 A。 


图 3-7 创建单 位矩阵 A 的程 序段 

第 (1) 行会读 取《， 花的 时间为 0(1)， 也就是 某个和 》值 无关的 固定时 间量。 第 (6) 行中 的赋值 
语句花 的时间 也是为 0(1)， 第 (5) 行和第 (6) 行 的循环 要进行 〃次， 在该循 环上花 的总时 间就是 
0(«)。 类 似地， 第 (4) 行中的 赋值语 句花的 时间是 0(1)。 第 (3) 行和第 (4) 行 的循环 要进行 〃次， 花 
费的总 时间为 0(n) 。第 (2) 行至第 (4) 行的外 层循环 要执行 《 次， 在每次 迭代中 花费的 时间为 0(«) ， 
所 以总时 间就是 (9(«2) 。 

因此， 图 3-7 所示 程序的 运行时 间就是 0(1)  +  0(«2)  +  0(«)， 分别表 示语句 (1)、 第 (2) 行至第 
(4) 行的 循环， 以及第 (5) 行和第 (6) 行的 循环。 更正式 地讲， 如果 以下几 点同时 成立： 

!；(«) 是第 (1) 行 所花的 时间； 

T2(n) 是第 (2) 行至第 (4) 行 所花的 时间； 

T3(n) 是第 (5) 行和第 (6) 行 所花的 时间。 

那么 可以得 出如下 结论。 

?；(«) 是 0(1); 

7>)是<9(«2) ; 
r3(«) 是  <9 ⑻。 

因此我 们需要 2； ⑻ +r2o)+r3o) 的 上界， 从而 得岀整 个程序 的运行 时间。 

因 为常数 1 显然是 o(«2) ， 所以可 以应用 求和规 则得出 ⑻是 o(«2) 。 因为 《是 
0(n2) , 就 可以对 (7； ⑷ +r2(«)) 和 r3 ⑻应 用求和 规则， 从 而得岀 7»+r2(«)+r3 ⑻是 (9(«2)。 
也就 是说， 图 3-7 所示 的整个 程序段 的运行 时间是 通俗 地讲， 就是 整个程 序几乎 将所有 
的 运行时 间都花 在了第 (2) 行至第 (4) 行的循 环上， 正 如我们 从以下 事实中 很容易 就能想 到的： 对 
于很大 的〃， 矩阵 的面积 要比由 《个 单元组 成的对 角线大 得多。 

示例 3.9 应用了  “ 低阶项 不产生 影响” 这条 规则， 因 为我们 舍弃了  1和《 这两项 比《2 次 数更低 
的多 项式。 不过， 求和 规则不 仅仅能 让我们 舍弃低 阶项。 如果 有任意 多个相 同的大 0 常 数项， 
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比如 有一列 10 个赋值 语句， 每 个赋值 语句所 花的时 间都是 0(1)， 那 么就可 以将这 10 个 0(1)  “ 加 
起 来”， 得到 0(1)。 不 那么严 格地讲 就是， 10 个常 数的和 还是个 常数。 要知道 原因， 请注意 1 是 
0(1) , 所以 10 个 0(1) 中任 何一个 都可以 “被 加到” 其他任 意一个 0 ⑴上， 从 而得岀 0 ⑴ 这个结 
果。 我 们可以 不断合 并项， 直到 只剩下 0 ⑴ 为止。 

不过， 必须要 小心， 不要把 某个像 0(1) 这样的 “常数 ”项， 与 这些随 输入大 小变化 的项弄 
混了。 例如， 我们 有可能 错误地 认为， 每进行 一次图 3-7 中第 (5) 行和第 (6) 行 所示的 循环， 花的 
时间为 0(1)， 而该循 环总共 循环了 《 次， 所以第 (5) 行和第 (6) 行的总 运行时 间就是 
0(1)  + (9 ⑴ +  0(1)  + … 个 0(1)) ， 而求 和规则 告诉我 们两个 (9 ⑴的 和也是 0(1) ， 这样， 根据归 
纳 法就可 以得岀 结论： 任 意多个 0(1) 的 和都是 0(1)。 但是， 在 这个程 序中， 《 不是 常数， 它会 
因输 入大小 而异。 因此， 我们 没法通 过多次 应用求 和规则 推断出 〃个 0(1) 具有 任何特 殊的值 。当 
然， 如果 真要考 虑这个 问题， 那么我 们知道 《个^ 的和 （其中 c 是某个 常数） 是 C/7, 该函 数的大 0 
形式是 0(«) ， 而这 就是第 (5) 行和第 (6) 行真正 的运行 时间。 

3.5.6 不相 称函数 

任意两 个函数 / ⑻和 g(«) 可由大 0 相 比较。 也就是 说， 要么 /0) 是 ⑻）， 要么 g(«) 是 
0( /⑻） 。或 者二者 互为对 方的大 0, 因为 我们看 到过， 2«2和《2+3« 这两个 函数 就是这 种互为 
大 0 的 关系。 这 种情况 是很不 错的。 不 过不巧 的是， 也有一 些不相 称的函 数对， 它们之 间不存 
在 任何大 0 关系。 

♦ 示例 3.10 

考虑如 下函数 

k  n 为奇数 
/(«)=  ， 

\n-,n 为偶数 

也 就是， /(I)  =  1  ,  /(2)  =  4  ,  /(3)  =  3  ,  /(4)  =  16  ,  /(5)  =  5  , 等等 。类 似地， 假设 有函数 
为奇数 

gin)  = 

U 为偶数 

那么 /(«)不 可能是 ⑻）， 因为那 些偶数 因为如 我们在 3.4 节中看 到的， 《2 绝对 不是 0(«)。 
类 似地， g ⑻也不 可能是 巧/⑻）， 因为那 些奇数 《， 当《 为奇 数时， g 的值比 / 的值 增长得 更快。 

3.5.7  习题 

(1) 证 明如下 命题。 

⑻如果 a 彡 6， 那么 沪是0(«6)。 

(b)  如果 a>6， 那么 不是 0(V)。 

(c)  如果 l<a 彡 &， 那么〆 是 

(d)  如果 那么 a" 不是 0(6") 。 

(e)  对任意 a 和任意 6>1 ， 〆 是0(6") 。 

(f)  对任意 6 和任意 a>l ， a” 是 0(〆 ） 。 

(g)  对任意 a 和任意 b>0  ,  (log«)a 是 0(nb)  0 

(h)  对任意 6 和任意 a>0  ,  na 不是  <9((log«)6) 。 
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(2)  证明： / ⑻ +  g ⑻是 0(max(/(n)，g ⑻ )) 。 

(3)  假设 7tn) 是  <9(/(>7)) , 且 g ⑻是某 个值不 为负的 函数。 证明： §(«.)八《) 是 0(g(«)/ ⑻）。 

(4)  假设双 n) 是 0(/(?7))， 且 /(«)是0匕(以 ， 而且这 些函数 对任意 《都 不为 负值。 证明： S{n)T{n) 
是 0(/(")g(")) 。 

(5)  假设 /⑻ 是  ⑷）。 证明： max(/0),g0)) 是 (9(g(n)) 。 

(6)  * 证明： 如果 / ⑻和 f2(n) 都是某 个函数 7tn) 的紧 边界， 那么 /；(«) 和 f2(n) 互为对 方的大 0。 

(7) *证 明： 对于图 3-6 所示 的函数 /(«) ， log2« 不是 (9(/ ⑻）。 

(8)  在图 3-7 所 示的程 序中， 通 过先在 矩阵中 每个位 置放上 0, 然后在 对角线 上放上 1， 我 们创建 了一个 
单位 矩阵。 将第 (4) 行的测 试改为 询问是 否有卜 J’， 如 果是， 则在 A[i]  U] 中放上 1， 如果 不是， 
则放上 0, 这样修 改后似 乎能更 快地完 成这一 工作。 然 后我们 还可以 删除第 (5) 行和第 (6) 行。 

(a)  写岀这 一 •程 序。 

(b) * 考虑图 3-7 中的 程序以 及自己 为问题 (a) 编写的 程序。 作 岀示例 3.1 中那样 的简化 假设， 计算两 
个 程序分 别耗费 了多少 个时间 单位。 哪 个程序 更快？ 用不同 大小的 二维数 组运行 这两个 程序， 
并 绘制它 们的运 行时间 曲线。 

3.6 分析程 序的运 行时间 

掌 握了大 0 的 概念， 以及 3.4 节和 3.5 节 中介绍 的那些 处理大 0 表达式 的规则 之后， 我 们将要 
学 习如何 获得常 见程序 运行时 间的大 0 上界。 只要有 可能， 我们 将只考 虑那些 不含函 数调用 （除 
了诸如 print f 那 样的库 函数） 的 程序， 将含有 函数调 用的问 题留待 3.8 节及 以后的 内容中 介绍。 

我们 不指望 能够分 析任意 程序， 因为 有关运 行时间 的问题 可能是 非常难 的数学 问题。 另一 
方面， 只要了 解一些 简单的 规则， 我们就 能够计 算岀实 践中遇 到的多 数程序 的运行 时间。 

3.6.1 简单语 句的运 行时间 

这里要 求读者 接受这 样一个 原则， 即某 些对数 据的简 单操作 可以在 0(1) 时间内 完成， 也就 
是说， 这个 时间是 和输人 大小无 关的。 c 语 言中的 这些基 本操作 包括： 

(1)  算术运 算 （ 比如 + 或 ％); 

(2)  逻辑运 算 （ 比如 &&  ); 

(3)  比较运 算 （ 比如 <= ); 

(4)  结构体 存取操 作 （ 比如 A  [  i  ] 这样 的数组 索引， 或者跟 在指针 后的- > 运算 符)； 

(5)  简单 的赋值 （ 比 如将某 个值复 制到某 个变量 中）； 

(6)  对库函 数 （ 比如 scanf 、 printf  ) 的 调用。 

对这一 原则的 验证需 要对常 见计算 机的机 器指令 （初始 步骤） 进 行详细 研究。 我们 很容易 
看出， 之前描 述的每 种操作 都只需 要少量 机器指 令便可 完成， 通常 只需要 1 条或 2 条 指令。 

因此， 在 C 语言中 有好几 种语句 都能在 0 ⑴时 间内执 行完， 也就 是说， 可以 在与输 入无关 
的某 个时间 段内执 行完。 这些简 单语句 包括： 

(1)  表达 式中不 涉及函 数调用 的赋值 语句； 

(2)  读 语句； 

(3)  不需 要调用 函数确 定参数 值的写 语句； 

(4)  跳 转语句 break、 continue、 goto 和 return 表 达式， 其中表 达式不 含函数 调用。 
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for  (i  =  0;  i  <  n-1 ;  i++)  { 
small  =  i; 

for  (j  =  i+1;  j  <  n;  j++) 
if  (A[j]  <  A  [small] ) 
small  =  j ; 
temp  =  A [small] ; 

A  [small]  =  A  [i] ; 

A  [i]  =  temp; 


在第 (1) 到第 (3) 条中， 这些 语句都 是由有 限数量 的基本 操作构 成的， 每 个操作 花的时 间都是 
0(1)。 由求 和规则 可知， 整个语 句花的 时间是 0(1)。 当然， 语句对 应的时 间常数 要比单 个操作 
对 应的常 数大， 不过我 们已经 知道， 无论 如何也 不能将 具体的 常数与 C 语言 语句 的运行 时间关 
联 起来。 

♦ 示例 3.1 1 

我们 在示例 3.9 中 看到， 图 3-7 中第 (1) 行的读 语句， 以及第 (4) 行和第 (6) 行中的 赋值， 每一行 
花 费的时 间都是 0(1)。 再 看一个 例子， 即图 3-8 中展示 的选择 排序程 序段。 第 (2)、 （5)、 （6)、 （7) 
和第 (8) 行， 每 一行花 费的时 间都是 0 ⑴。 


图 3-8 选 择排序 程序段 

我们经 常会看 到由连 续执行 的简单 语句构 成的程 序块。 如 果每条 语句的 运行时 间都是 
0(1), 那么根 据求和 规则， 整个程 序块花 费的时 间也是 0(1)。 也就 是说， 任意固 定多个 0(1) 的 
和还是 0 ⑴。 

♦ 示例 3.12 

图 3-8 中的第 (6) 行到第 (8) 行 形成了 一个程 序块， 因 为它们 永远是 连续执 行的。 由于 每一行 
花的时 间都是 0(1) ， 所以第 (6) 行到第 (8) 行的程 序块所 花的时 间也是 0(1)。 

请 注意， 不应 该把第 (5) 行算 在程序 块中， 因为 它是第 (4) 行 if 语 句的一 部分。 也 就是说 ，有 
时候 即便不 执行第 (5) 行， 第 (6) 行至第 (8) 行也会 执行。 

3.6.2 简单 for 循 环的运 行时间 

在 C 语言 中， 很多 for 循 环的构 成包括 初始化 指标变 量为某 个值的 语句， 以及 每进行 一次循 
环就 将该标 量递增 1 的 语句。 当该指 标达到 某个限 制后， for 循 环就终 止了。 例如， 图 3-8 中第⑴ 
行的 for 循环使 用了指 标变量 i。 每进 行一次 循环， 它就将 i 递增 1, 而当 i 达到 1 时， 迭代就 
停止了 。 

在 C 语言 中， 还有更 复杂的 for 循环， 其行为 更类似 while 语句， 这些 循环迭 代的次 数是不 
可预 知的。 本 节后面 将会介 绍这种 循环。 不过在 这里， 还是 将注意 力集中 在形式 简单的 for 循 
环上， 在这种 for 循 环中， 最终值 和初始 值之间 的差， 除 以指标 变量每 次递增 的量， 就 可以得 
岀循 环了多 少次。 这种计 数是精 确的， 除非还 存在一 些通过 跳转语 句退岀 循环的 方式， 否则这 
在 任何情 况下都 是迭代 次数的 上界。 例如， 图 3-8 中 for 循 环的第 1 行会 迭代化 -1)- 0)/l  =  n- 1 
次， 因为 0 是 / 的初 始值， 1 是 / 达到的 最高值 （即 当逝到 1 时， 循 环就会 终止， /  =  «- 1 时 
不会 发生迭 代）， 而且 循环每 次迭代 i 都会 增加 1。 


\ — /  \ — /  \ — /  \ — /  \ — /  \ — /  \ — /  \ — / 
12345678 

/ — 、 / — 、 / — 、 / — \ / — \  / — 、 / — '  / — ' 
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要为 for 循环的 运行时 间找出 边界， 必须先 找到循 环体进 行一次 迭代所 花时间 的上界 。请 
注意， 进行 一次迭 代的时 间包括 递增循 环指标 （ 比如图 3-8 第 (1) 行 中的递 增语句 i  +  +) 所 花的时 
间 0(1) ， 以及 比较循 环指标 与上限 （ 比如图 3-8 第 (1) 行中的 测试语 句1<11-1  ) 所花 的时间 0 ⑴。 
除 了循环 体为空 的异常 情况， 其 他所有 情况下 的这些 0 ⑴ 都 可以根 据求和 规则舍 弃掉。 

在最 简单的 情况， 也就 是循环 体每次 迭代所 花的时 间均相 同的情 况下， 可以 用循环 体的大 
0 上 界乘上 循环的 次数。 严格 地说， 还必须 加上初 始化循 环指标 的时间 0 ⑴， 以 及第一 次比较 
循 环指标 和上限 的时间 0(1)。 不过， 除非 有可能 不执行 循环， 否则 初始化 循环和 测试上 限的时 
间都是 根据求 和规则 可被舍 弃的低 阶项。 

♦ 示例 3.13 

考虑图 3-7 第 (3) 行和第 (4) 行中的 for 循环， 也就是 

(3)  for  (j  =  0;  j  <  n;  j++) 

(4)  A[i]  [j]  =0; 

我们 知道第 (4) 行花的 时间为 0 ⑴。 显然， 我们 要进行 《次 循环， 这可 以由第 (3) 行 找到的 上限减 
去下限 再加上 1 来 确定。 因为循 环体， 也 就是第 (4) 行， 花费的 时间为 0 ⑴， 所以 可以忽 略递增 j 
的时间 0(1) 以及比 较/与 《 的时间 0 ⑴。 因此， 第 (3) 行和第 (4) 行的运 行时间 为《与0 ⑴的积 ，也 
就是 (9(«) 。 

类 似地， 可以确 定由第 (2) 行至第 (4) 行 构成的 外层循 环的运 行时间 边界， 外 层循环 如下。 

(2)  for  (i  =  0;  i  <  n;  i++) 

(3)  for  (j  =  0;  j  <  n;  j++) 

(4)  A[i]  [j]  =  0; 

我 们已经 得到第 (3) 行和第 (4) 行 的循环 所花的 时间为  <9 ⑻。 因此， 可以忽 略递增 i 的时间 0 ⑴以 
及每 次迭代 时测试 是否有 /<« 所花 的时间 0 ⑴， 并得 出外层 循环每 次迭代 所花的 时间为 。 
外 层循环 初始化 i=0, 以及第 0  +  1) 次 的条 件测试 花的时 间都是 0(1)， 而且 都可以 忽略。 
最终， 我们 看到外 层循环 要循环 〃次， 而 每次迭 代的时 间都是 00) ， 因此总 运行时 间就是 0(«2) 。 

♦ 示例 3.14 

现在来 考虑图 3-8 第 (3) 行到第 (5) 行中的 for 循环。 在 这里， 循 环体是 if 语句， 是我们 接下来 
将要 了解如 何进行 分析的 结构。 不难推 断岀第 (4) 行花 费时间 0(1) 执行 测试， 第 (5) 行如果 执行的 
话 也会花 费时间 0(1)， 因 为它是 不含函 数调用 的赋值 语句。 因此， 不管第 (5) 行是否 执行， 执行 
for 循环循 环体所 花的时 间都为 0(1) ， 循 环中的 递增和 测试增 加的时 间都是 0(1) ， 所以 循环进 
行一次 迭代的 总时间 也只是 0(1) 。 

现 在我们 必须计 算进行 循环的 次数。 迭 代次数 是与输 入大小 〃无 关的。 而公式 “最后 的值减 
去 初始值 除以递 增量” 告诉 我们， +  或者说 是循环 迭代的 次数。 严格地 
说， 该公式 只有在 /<« 时才成 立。 好在我 们从图 3-8 的第 (1) 行可以 看出， 除非 否则我 
们不会 进人第 (2) 至第 (8) 行的循 环体。 因此， 我们 不仅知 道了〃 -/-I 是循环 迭代的 次数， 而且 
知道 了这个 数值不 可能为 0。 由此可 以得出 该循环 所花的 时间为 (《-/-l)xO(l) ， 或 者说是 
® 此处不 必加上 初始化 j 所花 的时间 (9 ⑴， 因为已 知《-/-1 不 可能为 0。 如 果看不 


① 从技术 上讲， 我们没 有讨论 过应用 到多变 量函数 上的大 o 运 算符。 在 这种情 况中， 可以将 0G-/-1) 说成 是“最 
多为 某个常 数乘以 也就 是说， 可以将 《-/-1 视为 某个单 变量函 数的替 代物。 
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出 《  -  /  - 1 为正 的话， 就必 须将运 行时间 的上 界写为 (9(max(l,  «  -  /  - 1” 。 

3.6.3 选择语 句的运 行时间 

if-else 选择 语句具 有如下 形式： 

if  (〈condition〉） 

<if -part〉 

else 

<else-part> 

其中 

(1)  条件 是待评 估的表 达式； 

(2)  if 部分的 语句只 有在条 件为真 （表 达式的 值不为 0) 时才 执行； 

(3)  else 部分的 语句只 有在条 件为假 （评 估为 0) 时才 执行， else 后的 <else-part> 是可 
选的。 

只要条 件中没 有函数 调用， 不管条 件多么 复杂， 都只需 要计算 机执行 一定量 的基本 操作。 
因此， 条 件评估 所花的 时间为 0(1) 。 

假 设在条 件中没 有函数 调用， 而且 if 部分和 else 部 分分别 具有大 0 上界 /(«) 和 g(«)。 还假 
设 /(«) 和 g (…不 会都为 0, 也就 是说， 尽管 else 部分 可能不 存在， 但 if 部分 是不会 为空的 。我 
们将 确定两 部分都 为空的 时候会 发生什 么留作 本节的 习题。 

如果 / ⑻是 ⑻）， 那么 可以将 作为 选择语 句运行 时间的 上界。 原因 包括： 

(1)  可以 忽略条 件所花 的时间 0 ⑴； 

(2)  如果 else 部分 执行， 就可知 g(«) 是运行 时间的 边界； 

(3)  如果 if 部分 （而 不是 else 部分） 执行， 那么 运行时 间将是 0(g(«)), 因为 /(«)是 

。(幺 ⑻)。 

类 似地， 如果 g(«) 是 0(/ ⑻）， 就可 以通过 0(/(«)) 确定 选择语 句运行 时间的 边界。 请注 
意， 当 else 部分不 存在时 （情 况也常 常是这 样）， g ⑻为 0, 就 肯定是 0(/(«))。 

当 片呀 之间不 存在大 0 关 系时， 问题出 现了。 我 们知道 if 部分或 else 部分肯 定有一 种要执 
行， 但不 可能都 执行， 所 以运行 时间的 安全上 界就是 / ⑻和 g ⑻ 中的较 大者。 正 如我们 在示例 
3.10 中看 到的， 二者 谁比较 大可能 取决于 因此， 要将 选择语 句的运 行时间 表示为 
O (max( f(n),g(n)))  0 


♦ 示例 3.15 

正 如我们 在示例 3.12 中看 到的， 图 3-8 中第 (4) 行和第 (5) 行 是选择 语句， 其中第 (5) 行是 if 部 
分， 所花 时间为 0 ⑴， 而 不存在 else 部分 （也就 是所花 时间为 0)。 因此， / ⑻是 1 且 g ⑻是 0。 
由于 g(«) 是 0(/(«))， 可 以得出 0(1) 是第 (4) 行和第 (5) 行运行 时间的 上界。 请 注意， 在第 (4) 行 
执 行测试 A  [  j  ]  <A  [  small] 的时间 0 ⑴可以 忽略。 


♦ 示例 3.16 

图 3-9 所 示的代 码段是 个更为 复杂的 例子， 它 执行的 （相 对无 意义的 ） 任务是 将矩阵 A 置为 0, 
或是 将矩阵 的对角 线置为 1。 一 如我们 在示例 3. 13 中所了 解的， 第 ⑺行至 第⑷行 的运行 时间是 
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if  (A[l]  [1]  ==  0) 

for  (i  =  0;  i  <  n;  i++) 

for  (j  =  0;  j  <  n;  j++) 
A[i]  [j]  =0; 

else 

for  (i  =  0;  i  <  n;  i++) 

A[i]  [i]  =  1; 


0{n2) ，而第 (5) 彳了 和第⑹ 彳了的 运彳了 时间是 (9 ⑻ ◦因此 这里的 / ⑻是 ^ ， g ⑻是 因为 w 是 (9(^2) 
所以可 以忽略 else 部分的 时间， 并将 0(«2) 作为图 3-9 中整 个程序 段运行 时间的 边界。 也就 是说， 
我们不 知道第 (1) 行 的条件 是否将 为真或 者什么 时候将 为真， 不过唯 一安全 的上界 是从最 坏的假 
设中得 岀的， 即 条件为 真而且 if 部分执 行了。 


图 3-9  if-else 选 择语句 的示例 


3.6.4 程序 块的运 行时间 

前 文已经 提到， 一系 列赋值 、读、 写 操作， 每 一次操 作的时 间都是 0(1) ， 总时 间也是 0(1)。 
一 般的情 况是， 必须能 将一系 列语句 （其中 有一些 是复合 语句， 也就 是选择 语句或 循环） 组合 
起来。 这样 一系列 简单的 复合语 句就是 程序块 （block)。 要计算 程序块 的运行 时间， 需 要对程 
序块 中每条 （ 可 能是复 合的） 语 句的大 0 上界 求和。 好在可 以使用 求和规 则消除 和中的 一些项 ^ 

♦ 示例 3.17 

在图 3-8 的 选择排 序程序 段中， 可以 将外层 循环的 循环体 （也 就是第 (2) 行至第 (8) 行） 视为 
一个程 序块。 该程 序块由 5 条语句 组成。 

(1)  第 (2) 行 的赋值 语句。 

(2)  第 (3) 行、 第 (4) 行和第 (5) 行的 循环。 

(3)  第 (6) 行 的赋值 语句。 

(4)  第 (7) 行 的赋值 语句。 

(5)  第 (8) 行 的赋值 语句。 

请 注意， 第 (4) 和第 (5) 行的选 择语句 以及第 (5) 行的 赋值在 程序块 这一级 是不可 见的， 它们已 
经 隐藏在 更大的 语句， 也 就是第 (3) 行至第 (5) 行 的循环 中了。 

我们 知道， 4 条赋 值语句 每条所 花的时 间都是 0(1)。 在示例 3. 14 中， 已 经了解 到该程 序块中 
第 2 条语句 （ 也 就是第 (3) 行至第 (5) 行） 的运行 时间是 0(«-/-1) 。 因此， 该程 序块的 运行时 间是: 

0(1)  +  0(n -i-l)  +  0(1)  +  0(1)  +  0(1) 

因为 1 是 0(/7-/-1) (回想 一下， 我们还 推导岀 / 从不 会大于 《 -2  )， 所 以可以 通过求 和规则 
消除 所有的 0 ⑴项。 因此， 整个程 序块的 运行时 间就是 

再 看一个 例子， 考虑 一下图 3-7 中的程 序段。 它可被 视为由 3 条语句 组成的 单一程 序块。 

(1)  第⑴ 行的读 语句。 

(2)  第 (2) 行至第 (4) 行的 循环。 

(3)  第 (5) 行和第 (6) 行的 循环。 

我们 知道， 第⑴ 行花的 时间为 0(1)。 从示例 3.13 可知， 第 (2) 行至第 (4) 行花的 时间是 0(«2) ， 
第 (5) 行和第 (6) 行花的 时间是 0(«) 。 所以整 个程序 块的运 行时间 就是： 


\ — /  \ — /  \ — /  \ — /  \ — /  \ — / 

12  3  4  5  6 

/ - 、 / - '  / - '  / - \  / - '  / - V 
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while (x  ! =  A [i] ) 


o ⑴ +oo2)  +  o ⑻ 

根据求 和规则 ，由 0(«2) 可 以消去 0 ⑴ 和 0(«) 。 因 此可以 得出图 3-7 中 程序段 的运行 时间为 0(«2) 。 

3.6.5 复杂循 环的运 行时间 

在 C 语言 中， 有一些 while 循环、 do-while 循环和 for 循环并 未提供 显式的 计数 变量。 对于 
这些 循环， 一部分 分析工 作就是 要找到 为循环 迭代次 数提供 上界的 参数。 这些证 明过程 通常都 
遵循 我们在 2.5 节中 了解的 模式。 也就 是说， 通过 X 利盾环 次数的 归纳证 明某个 命题， 而该 命题表 
明在 迭代次 数达到 某个限 制后， 循环 条件一 定会变 为假。 

我们 还必须 建立执 行一次 循环迭 代所花 时间的 边界。 因此， 可以 对循环 体加以 研究， 并获 
得其 执行的 边界。 为了实 现这个 目标， 必须在 循环体 执行后 加上测 试条件 的时间 0 ⑴， 不过除 
非循 环体不 存在， 否则我 们都会 忽略该 0 ⑴项。 通过 用迭代 次数的 上界乘 以一次 迭代所 花时间 
的 上界， 可以 得到循 环运行 时间的 边界。 从技术 上讲， 如果该 循环是 for 循环或 while 循环， 而 
不是 do-while 循环， 就 必须将 进入循 环体之 前第一 次测试 条件所 需的时 间包含 在内。 不过 ，这 
个 0(1) 经 常是可 以忽 略 掉的。 

♦ 示例 3.18 

考 虑如图 3-10 所 示的程 序段。 该程 序会搜 索数组 A[0.  .n-1] ， 找岀该 数组中 的元素 X。 


图 3-10 线性 查找的 程序段 

图 3-10 中第⑴ 行和第 (3) 行的两 条赋值 语句的 运行时 间均为 0(1) 。 第 (2) 和第 (3) 行的 while 循 
环可能 会执行 《 次， 但不 会超过 《 次， 因为我 们假设 X 确 实是数 组元素 之一。 因为第 (3) 行 的循环 
体所需 时间为 0 ⑴， 所以该 while 循环的 运行时 间就是 0(«)。 根 据求和 规则， 整 个程序 段的运 
行 时间为 0(«)， 因为 这是第 (1) 行 的赋值 语句以 及整个 while 循 环所花 的最大 时间。 在第 6 章中， 
我们 还将看 到这种 0(«) 程 序是如 何被使 用二叉 查找的 0(log«) 程 序所代 替的。 

3.6.6  习题 

(1)  对 开头为 for  (i  =  a;  i  <=  b;  i++) 的 for 循环， 用 a 和 6 的函数 表示其 循环次 数^ 对 开头为 for 
(i  =  a；  i  <=  b；  i--) 的 for 循环 又是怎 样表示 的呢？ 对 开头为 for  (i  =  a;  i  <=  b;  i  =  i+c) 
的 for 循环 呢？ 

(2)  给出 某个普 通的选 择语句 if  (Q  {} 运行时 间的大 0 上界， 其中 C 是不 涉及任 何函数 调用的 条件。 

(3)  给 岀某个 普通的 while 循环 while  (C)  {} 运行时 间的大 0 上界， 其中 C 是不 涉及任 何函数 调用的 
条件。 

(4)  * 给岀 C 语言 switchi 吾 句运行 时间的 规则。 

(5)  给出 我们能 确定哪 条分支 被执行 的选择 语句运 行时间 的规则 ，比如 
if  (1==2) 

something  0(/(n)) : 

else 

something  0(g(n)) ; 
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(6) 给 岀循环 开始前 条件已 知为假 的退化 while 循环 （ degenerate  while-loop  ) 运行 时间的 规则， 比如 

while  (1  !=  1) 

something  0(/(n)) ; 

3.7 边界 运行时 间的递 归规则 

在 3.6 节中， 我 们简略 地描述 了一些 规则， 它们用 程序结 构各部 分的运 行时间 来定义 整个程 
序结构 的运行 时间。 例如， 我 们说过 for 循环 的运行 时间大 致等于 循环体 所花的 时间乘 以迭代 
的 次数。 隐藏 在这些 规则背 后的概 念是， 程 序是使 用归纳 规则构 成的， 复 合语句 （循 环、 选择 
和 其他由 子语句 组成的 语句） 通过 这些规 则由诸 如赋值 、读、 写和 跳转语 句这样 的简单 语句组 
成。 这些 归纳规 则涵盖 循环的 形成、 选择 语句及 程序块 等一系 列复合 语句。 

我们 要将一 些构建 C 语言 语句 的句法 规则表 述为递 归定义 。这些 规则符 合经常 出现在 C 语言 
教材 中的那 些定义 C 语言 的语法 规则。 我 们在第 11 章 中还将 看到， 语法可 以用作 简洁递 归表示 
法， 来指明 编程语 言句法 （ syntax  )。 


更 具防御 性的程 序设计 

如果大 家只是 因为相 信示例 3. 18 中 的数组 A 总会存 在元素 jc， 就认为 它总会 存在， 那 就太天 
真了。 请 注意， 如果 数组中 不存在 X， 图 3-10 中的 循环将 最终会 出错， 因 为它要 试着访 问一个 
超过 数组上 限的 数组 元素。 

好 在有一 种简单 的方法 可以避 免这一 错误， 而且不 会给循 环的每 次迭代 增加很 多时间 。我 
们允许 数组末 尾有第 《  +  1 个 单元， 而在 开始循 环前， 将 JC 放 在该单 元中。 那 么确实 能确定 JC 会出 
现在 数组中 的某个 位置。 当 循环结 束后， 我们 会测试 是否有 /  =  «。 如 果是， 那么 JC 并非 真正在 
数 组中， 我 们会穿 过数组 到达作 为哨兵 （ sentinel ) 的 x 的 副本。 如果 ， 那么 / 就表示 x 出现的 
位置。 带 有这种 保护功 能的程 序如下 所示。 

A[n]  =  x; 

i  =  0; 

while  (x  !=  A[i] ) 
i++; 

if  (i  ==  n)  /*  do  something  appropriate  to  the  case 
that  x  is  not  in  the  array  */ 

else  /*  do  something  appropriate  to  the  case 

that  x  is  found  at  position  i  */ 


依据。 

c 语言 中的简 单语句 如下。 

(1)  表 达式。 包括 赋值语 句以及 读和写 语句， 后 者是对 printf 和 scanf 等 函数的 调用； 

(2)  在兆 转语句 0 包含 goto、 break、  continue 禾口 return; 

(3)  空 语句。 

请 注意， 在 C 语言 中， 简 单语句 都是以 分号结 尾的， 我们 要将分 号视为 这些语 句的一 部分。 

归纳。 

以下规 则让我 们可以 用较小 的语句 来构建 语句。 

(1)  while 语句。 如果 5* 1 2 3  是 语句， 而 C 是条件 （带有 算术值 的表达 式）， 那么 

while  (C)S 


for  (i  =  0;  i  <  n-1 ;  i++)  { 
small  =  i ; 

for  (j  =  i+1;  j  <  n;  j++) 
if  (A[j]  <  A  [small] ) 
small  =  j ; 
temp  =  A [small] ; 

A [small]  =  A  [i] ; 

A [i]  =  temp; 


是 语句。 只要 c 为真 （具 有非 o 的 值）， 循 环体辟 尤会 执行。 

(2)  do -while 语句。 如果 51 是 语句， 而 C 是条 件， 那么 

do  S  while  (  C) 

是 语句。 do-while 循环和 while 循环 类似， 只不过 do-while 循环的 循环体 ^ 至少 会执行 

^ '次。 

(3)  for 语句。 如果 是语 句， 而氏、 尽和 尽是表 达式， 那么 

for  (£1；  E2;  )  S 

是 语句。 第一个 表达式 在会进 行一次 评估， 并指定 循环体 ^ 的初 始化。 第二个 表达式 馬是对 
循环 终止的 测试， 会在每 次迭代 前进行 评估。 如 果它的 值不为 0, 那 么循环 体就会 执行， 否则该 
for 循 环就将 终止。 第 三个表 达式馬 会在每 次迭代 后进行 评估， 并为 循环的 下一次 迭代指 定重初 
始化 （递 增)。 例如， 如下 常见的 for 循环 

for  (i  =  0;  i  <  n;  i++)  S 

其中 ^ 会迭代 《 次， 对应 / 的值 分别为 1、 2、 3、 …、 1。 在这里 ， i  =  0 是初 始化， i  <  n 
是终止 测试， i  +  + 是重初 始化。 

(4)  选择 语句。 如果& 和&是 语句， 而 C 是条 件， 那么 
if(  C  )  5*1  else  ^ 

是 语句， 而且 

if  (  C  )  5-1 

也是 语句。 在第 一种情 况中， 如果 C 为真 （非 0)， 就执行 否则 就执行 在第二 种情况 
中， 只有当 C 为真， 才执行 

(5)  程序块 。 如果& 、& 、…、 & 都是语 句， 那么 

{5*1  52  ••-  Sn} 

也是 语句。 

我们 在上面 没有列 岀开关 语句， 它形式 复杂， 但 在分析 运行时 间时可 以被当 作嵌套 的选择 
语句。 

利 用上述 对语句 的递归 定义， 就可 以通过 分辨程 序的组 成部分 来解析 程序。 也就 是说， 首 
先有 简单的 语句， 再 进一步 将这些 简单的 语句组 成更大 的复合 语句。 

♦ 示例 3.19 

考虑图 3-11 所示 的选择 排序程 序段。 作为 根据， 第 (2) 行、 （5) 行、 （6) 行、 （7) 行和第 (8) 行的 
每次赋 值都各 为一条 语句； 而第 (4) 行和第 (5) 行组成 了选择 语句； 第 (3) 行至第 (5) 行又 组成了 for 
语句； 然后第 (2) 行至第 (8) 行 组成了 一个程 序块； 最后， 整 个程序 段也是 for 语句。 
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图 3-11 选 择排序 程序段 
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3.7.1 程序 结构的 树表示 

我 们可以 用如图 3-12 所示的 树表示 程序的 结构。 树叶 （那些 圆圈） 是简单 语句， 而 其他的 
节 点则表 示复合 语句。 ® 节点会 被标记 上它们 所表示 结构的 种类， 以 及构成 该节点 所表示 简单语 
句或 复合语 句的代 码行。 从每个 表示复 合语句 的节点 讀 卩会向 下引出 到达其 “子 节点” 的 连线。 
节点 州 的子 节点表 示构成 # 所表 示复合 语句的 那些子 语句。 这样 的树就 称为程 序的结 构树。 


♦ 示例 3.20 

图 3-12 是图 3-11 所示程 序的结 构树。 每 个圆圈 分别是 表示图 3-11 中 5 条赋 值语句 的树叶 。我 
们在图 3-12 中没有 说明这 5 条语句 是赋值 语句。 

在树 的顶端 （ 也就是 “ 根”） 是 表示第 (1) 至第 (8) 行 整个程 序段的 节点。 for 循 环的循 环体是 
由第 (2) 行至第 (8) 行组 成的程 序块。 ® 该程序 块是用 根节点 下方的 节点表 示的。 而 这个表 示程序 
块的节 点又有 5 个子 节点， 分别表 示该程 序块的 5 条 语句。 其中第 (2)、 （6)、 （7) 和第 (8) 行这 4 条是 
赋值 语句， 而第 5 条 是第⑶ 行至第 (5) 行的 for 循环。 

第 (3) 行至第 (5) 行表示 for 循环的 节点又 有表示 其循环 体 （ 就是第 (4) 行和第 (5) 行的 if 语句） 
的子 节点。 而 表示第 (4) 行和第 (5) 行 if 语句的 节点又 具有表 示其组 成语句 （第 (5) 行 的赋值 语句） 
的子 节点。 

3.7.2 攀爬结 构树以 确定运 行时间 

正如 递归构 建的程 序结构 那样， 我们可 以使用 类似的 递归方 法来定 义程序 运行时 间的大 0 


①  我们 将在第 5 章中 详细讨 论树。 

②  更 为详细 的结 构树还 有表示 for 循环初 始化表 达式、 终止 测试表 达式和 重初始 化表达 式的子 节点。 
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上界。 就像在 3.6 节中 那样， 我 们假定 在下列 几类表 达式中 都不存 在函数 调用。 （1) 构成 赋值语 
句、 打印 语句、 选择 语句条 件的表 达式； （2) 构成 while 循环、 for 循环和 do-while 循环 条件的 
表 达式； （3)  for 循环初 始化或 重初始 化的表 达式。 唯一的 例外是 对诸如 print f 这样的 读函数 
或写 函数的 调用。 

依据。 简 单语句 （也就 是赋值 、读、 写 或跳转 语句） 的 边界是 0(1)。 

归纳。 对 于我们 已经讨 论过的 5 种复合 结构， 计 算其运 行时间 的规则 如下。 

(1)  while 语句。 设 是 while 语 句循环 体的运 行时间 上界， /(«) 是通 过递归 地应用 
这些 规则得 到的。 再假设 g (均 是循环 次数的 上界。 那么 0(1  +  (/(«)  +  1^(«” 就 是整个 while 循 
环的运 行时间 上界， 其中 0(/(«)  +  1) 是循 环体加 上循环 体后测 试的运 行时间 上界。 开头 那个多 
岀来的 1 表示 循环开 始前的 第一次 测试。 在 /(«) 和 都 至少为 1  (或 者如果 不定义 其值为 1， 
则 其值为 0, 我 们就可 以定义 它们为 1  ) 的 平常情 况下， 可 以将该 while 循环的 运行时 间记为 

。 这 一运行 时间的 通用公 式如图 3- 13a 所示。 

(2)  do-while 语句。 如果 是循环 体运行 时间的 上界， 且 gO) 是循环 次数的 上界， 
那么 0«/ ⑻ +  1^(«)) 就是该 do-while 循 环的运 行时间 上界。 这里 “+1” 表示的 是循环 每次迭 
代 之末计 算和测 试循环 条件的 时间。 请 注意， 对 do-while 循环 来说， 以《) 总是 至少为 1。 在对 
所有 《都有 / ⑻ >1 的情 况中， do-while 循环 的运行 时间为 ⑻）。 图 3-13b 表示 了计算 
普通 情况下 的 do-while 循环运 行时间 的 方法。 


至 少循环 
g ⑻次 


0(1) 


0  (g(«M«)) 


(b)  do -while  语句 
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循环忠 X) 次 


0(1) 


0(1) 


(c)  for 语句 

图 3-13 计算不 含函数 调用的 循环语 句的运 行时间 


(3)  for 语句。 如果 (9(/ ⑻) 是循环 体运行 时间的 上界， figO) 是循 环次 数的 上界， 那么 for 
语句 运行时 间的上 界就是 0((1  +  f{n)  +  \)g{n))0 因子 /(«)  +  1 表示每 进行一 次循环 所花的 时间。 
开头的 “1+” 表示第 一次初 始化， 以及 第一次 测试为 负从而 导致循 环体不 执行这 种可能 。在 f{n) 
和 g(«) 都至 少为 1， 或者 可重新 定义为 至少是 1 的 一般情 况下， for 语句 的运行 时间是 
0(f{n)g{n)) , 如图 3-13c 所示。 

(4)  选择 语句。 如果 (9(/(«)) 和 (9(/2(«)) 分别是 if 部分和 else 部 分的运 行时间 （如 果没有 
else 部分， 则  <9(/2 ⑻) 为 0)， 那么选 择语句 运行时 间的上 界就是 (9(1  + max (/0),/20)》 。 “1+” 
表 示条件 测试， 在/ i ⑻和/ 2(«) 至少有 一个为 正数的 一般情 况下， 这个 “1+” 是 可以忽 略的。 
此外， 如果 / ⑻和/ 2 ⑻中 有一个 是另一 个的大 0, 那 么该表 达式如 3.5 节习题 (5) 中所述 那样可 
以简化 为二者 中的较 大者。 图 3-14 表示了 if 语 句运行 时间的 计算。 


0(max(/；(«),  /;(«)) 

或 

OC/i ⑻或^ ⑻的较 大者) 


OifY(n)) 


OifM) 

图 3-14 计算不 含函数 调用的 if 语 句的运 行时间 
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(5) 程 序块。 如 果程序 块中各 语句的 运行时 间上界 分别是 0(/(«))、 0(/2(«))、 …、 
0(久 ⑻）， 那 么整个 程序块 运行时 间的上 界就是 0(/ ⑻ 十兑⑻+…+久 ⑻）。 如 果可能 的话， 
请使用 求和规 则简化 这个表 达式。 程序 块运行 时间的 计算规 则如图 3-15 所示。 


0(， ⑻) 

0(/2 ⑻) 


0(/*  ⑻) 


0(乂  ⑻ ，)+ …， )) 
或 

<9(办《) 的最 大者） 


图 3-15 计算 不含函 数调用 的程序 块的运 行时间 

可以应 用这些 规则， 从 较小的 语句开 始向上 遍历表 示复合 语句构 造的结 构树。 或者， 可以 
将这 些规则 的应用 视为从 递归依 据所涵 盖的简 单语句 开始， 逐步变 成更大 的符合 语句， 在每一 
步应用 5 种 归纳规 则中任 意一种 合适的 规则。 不管 我们怎 样看待 计算运 行时间 上界的 过程， 都需 
要 在分析 过组成 复合语 句的所 有语句 之后， 再对 复合语 句加以 分析。 

♦ 示例 3.21 

我 们来重 新审视 一下图 3-11 中 的排序 程序， 它 的结构 树如图 3-12 所示。 首先， 已知图 3-12 
中树叶 位置的 每条赋 值语句 所花的 时间为 0(1)。 继 续向树 的上方 行进， 就会 遇到第 (4) 行和第 (5) 
行的 if 语句。 从示例 3.15 中可以 回想起 这一复 合语句 所花的 时间为 0 ⑴。 

接下 来随着 向上遍 历该树 （或者 说从较 小语句 向它们 所围绕 的较大 语句行 进）， 就 必须分 
析第 (3) 行至第 (5) 行的 for 循环。 示例 3.14 就 是完成 这一工 作的， 从 中可得 岀运行 时间为 
0(«-/-1)。 在 这里， 我们 选择将 运行时 间表示 为具有 n 和 i 两个 变量的 函数。 这 一选择 给我们 
带来了 一些计 算上的 困难， 而正如 接下来 将要看 到的， 其实可 以选择 这个更 松散的 上界。 
要以 (9(/7  —  z  —  1) 作为 边界， 就必 须从图 3-1 1 的第 (1) 彳了 看出 i 从不可 能有 《  - 1 这 么大。 因此 《  - / - 1 
是严 格大于 0 的， 并主导 0 ⑴。 所以， 我们不 需要在 0(«-/-1) 之 外加上 初始化 for 循环 的指标 
j 所花 的时间 0(1)。 

现在 到了第 (2) 行至第 (8) 行的程 序块。 正 如示例 3.17 中所描 述的， 该程 序块的 运行时 间是对 
应 4 条赋值 语句的 4 个 0 ⑴ 的和， 加上第 (3) 至第 (5) 行复合 语句的 0(«- 1)。 根据求 和规则 ，以 
及我们 看出的 Kn 的 结论， 可以舍 弃这些 0(1)， 留下 0(«-/-1) 作 为这个 程序块 的运行 时间。 

最后， 必须考 虑从第 (1) 行到第 (8) 行 的这个 for 循环。 该 循环在 3.6 节中没 有得到 分析， 
不过我 们可以 运用归 纳规则 (3)。 该规 则需要 循环体 （也 就是第 (2) 行至第 (8) 行） 的运 行时间 
上界。 我们 刚确定 了该程 序块的 边界为 这展 现了之 前从未 见过的 情形。 尽管 i 在 
该 程序块 内是个 常量， 然而 i 是外层 for 循环 的循环 指标， 会随 着循环 变化。 因此， 我 们不能 
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将边界 /-I) 视作该 循环全 部迭代 的运行 时间。 好 在从第 (1) 行可 以看出 / 不会 小于 0, 所 
以 0(«- 1) 是 0(«- /-I) 的 上界。 此外， 根据 低阶项 不产生 影响的 规则， 可以将 0(«- 1) 简化 
为 0 ⑻。 

接下来 需要确 定循环 进行的 次数。 因为 i 是从 0到《- 2, 所以显 然要循 环《-1 次。 用《-1 
乘上 0(«)， 便得到 002 - «)。 再次 舍去低 阶项， 就得到 0(«2) 是 整个选 择排序 程序的 运行时 
间 上界。 也就 是说， 选择 排序的 运行时 间具有 二次的 上界。 该二 次上界 是可能 存在的 最紧上 
界了， 因 为可以 证明， 如 果这些 元素一 开始是 倒序排 列的， 那 么选择 排序就 要进行 - 1)/2 
次 比较。 

一 如我们 将要看 到的， 可以为 归并排 序得出 《log« 的运 行时间 边界。 在实 践中， 除 了对那 
些小的 《值 之外， 归并 排序要 比选择 排序更 高效。 归 并排序 有时比 选择排 序慢的 原因就 在于， 
0(n\ogn) 的上 界与选 择排序 的边界 相比， 隐藏 了一个 更大的 常数。 真实的 情况是 一对交 
叉的 曲线， 如 3.3 节 中的图 3-2 所示。 

3.7.3 循环运 行时间 更精确 的上界 

我 们已经 说过， 要评 估循环 的运行 时间， 需要 找出适 用于循 环每一 次迭代 的统一 边界。 
不过， 对循 环更为 细致的 分析要 分开处 理每次 迭代， 并为每 次迭代 的上界 求和。 从技术 上讲， 
必须将 递增循 环指标 （ 如果 循环是 for 循环） 和测试 循环条 件的时 间包括 在内， 以防岀 现操作 
的时 间能引 起决定 性变化 的罕见 情况。 一般 来讲， 更加细 致的分 析并不 会改变 答案， 虽然在 
一 些不寻 常的循 环中大 多数迭 代只花 费很少 时间， 而一 次或几 次迭代 却占据 大量运 行时间 （这 
会使这 种循环 每次迭 代时间 之和， 要明 显小于 迭代次 数乘上 每次迭 代可能 花的最 大时间 
的 积)。 

♦ 示例 3.22 

我们要 对选择 排序的 外层循 环进行 这种更 精确的 分析。 尽管 付出了 额外的 努力， 可 还是会 
得到 二次的 上界。 正 如示例 3.21 所示， 当指 标变量 i 的值 为油 t， 外层循 环此次 迭代的 时间为 

0(n-i-l)o  i 的 范围是 0 到 /7-2, 因此所 有迭代 所花时 间的上 界就是 0([  =  («-卜1))。 这个 

和式中 所有项 形成了 一个算 术级数 ，所 以可 以利用 公式“ 第一项 和最后 一项的 平均数 乘以项 数”。 
该公 式告诉 我们： 

n—2 

^ (n-i-l)  =  n(n - 1) / 2  =  0.5n2  - 0.5n 

i=0 

忽略 低阶项 和常数 因子， 可 以看到 0(0.5«2-0.5«) 与 0(岣 是相 同的。 这样 就再次 得出了 结论： 
选 择排序 具有二 次的运 行时间 上界。 

示例 3.21 中的简 单分析 与示例 3.22 中更 细致分 析的区 别如图 3-16 所示。 在示例 3.21 中， 将任 
一次 迭代可 能花费 的最大 时间当 作每次 迭代的 时间， 因此 得到了 长方形 的区域 作为图 3-11 中 for 
循 环运行 时间的 边界。 在示例 3.22 中， 通 过图中 的对角 线为每 次迭代 确定了 运行时 间边界 ，因 
为每 次迭代 的时间 是随着 / 线性递 减的。 因此， 可以得 岀该三 角形的 面积以 作为对 运行时 间的估 
计。 不过， 众所 周知， 图中三 角形的 面积是 长方形 面积的 一半。 因为常 数因子 2 与其 他被大 0 表 
示法隐 藏的常 数因子 一样会 消失， 所以这 两个运 行时间 上界其 实是一 样的。 
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#include  <stdio.h> 
#define  MAX  100 
int  A  [MAX] ; 


main() 


int  closest ,  i ,  n; 
float  avg,  sum; 

for  (n  =  0;  n  <  MAX  &&  scanf ("%d" ，  &A [n] )  ! =  EOF ;  n++) 
> 

sum  =  0; 

for  (i  =  0;  i  <  n;  i++) 
sum  +=  A  [i] ; 
avg  =  sum/n; 
closest  =  0; 

i  =  1； 

while  (i  <  n)  { 

/* 在下 面的测 试中为 元素求 平方， 就不再 
需要区 分正数 和负数 的差异 了。 V 

if  ((A[i]-avg)*(A[i]-avg)  < 

(A [closest] -avg)* (A [closest] -avg) ) 
closest  =  i ; 

i++; 


printf  (,!°/od\nn  , closest) ; 


图 3-16 对循 环运行 时间的 简单估 算和精 确估算 

3.7.4  习题 

(1) 图 3-17 中的 C 语言程 序会计 算数组 A[0..n-1] 中各元 素的平 均值， 并 将最接 近该平 均值的 元素的 
下标打 印岀来 （若 不止 有一个 这样的 元素， 则 以先岀 现的为 准）。 假设 〃彡 1， 而 且不含 对空数 
组 的必要 检测。 画出结 构树， 展 示这些 语句是 如何进 一步组 成更复 杂的语 句的， 并 给岀该 结构树 
中 每一语 句运行 时间的 简单大 0 上界 和紧大 0 上界。 整 个程序 的运行 时间是 多少？ 


\ — ^ /  \ — ^ /  - - .  - - .  \ — / 、 - /  \ - /  \ — /  \ ― / 

123456789 

, — \  / — \ / — \  / — \  / — \ / — \ / — \  / — .  / — . 


o  12  3 

1 — I  1  1— I  T— I 


> 


图 3-17 习题 (1) 的程序 
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for  (i  =  0;  i  <  n-1 ;  i++) 

for  (j  =  i+1;  j  <  n;  j++) 
for  (k  =  i;  k  <  n;  k++) 

A[j][k]  =  A[j][k]  -  A[i]  [k]*A[j]  [i]/A[i]  [i]; 


for  (i  =  1;  i  <=  n;  i++)  { 
m  =  0; 


while  (j°/02  ==  0) 

j  =  j/2； 

m++; 

} 


int  prime (int  n) 


i  =  2; 

while  (i*i  <=  n) 
if  (n°/oi  ==  0) 

return  FALSE; 
else 


return  TRUE; 

} 


(2) 图 3-18 所示 的程序 段会将 的矩阵 A 变形。 画岀 该程序 段的结 构树， 给岀 每一复 合语句 运行时 
间的大 0 上界。 

(a)  用 《和/ 的函 数表 示两个 内层循 环运行 时间的 边界。 

(b)  用《 的函 数表示 所有循 环运行 时间的 边界。 

对整个 程序， 你的 答案和 (a)、 （b) 部分之 间是否 存在大 0 差异？ 


图 3-18 习题 (2) 的程序 

(3)  * 图 3-19 中的程 序段对 范围从 1 到 n 的整数 / 应用 了示例 3.8 中 讨论的  “2 的 乘方” 操作。 画岀 该程序 
段的结 构树， 给岀 每一复 合语句 运行时 间的大 0 上界。 

(a)  用 / 的 函数 表示该 while 循环运 行时间 的 边界。 

(b)  用 n 的函 数 表示该 whi  1  e 循环运 行时间 的 边界。 

对整个 程序， 你的 答案和 (a)、 （b) 部分之 间是否 存在大 0 差异？ 


图 3-19 习题 (3) 的程序 

(4) 图 3-20 中的函 数会确 定参数 n 是否为 质数。 请 注意， 如果 n 不是 质数， 它就 可以被 某个在 2 和 丄 之 
间 的整数 / 整除。 画 岀该函 数的结 构树， 用 n 的函 数表示 每一复 合语句 运行时 间的大 0 上界。 整个 
函数的 运行时 间又是 多少？ 


12  3  4  5  6 

/ V  / - 、 / - 、 / - V  / - V  / - V 


\ ― /  \ ― /  \ ― /  \ ― /  \ ― /  \ — / 

12  3  4  5  6 

/ - \  / - V  / - 、 / - \  / . V  / - \ 


图 3-20 习题 (4) 的程序 
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3.8 含函 数调用 的程序 的分析 

现在要 展示的 是如何 分析包 含函数 调用的 程序或 程序段 的运行 时间。 首先， 如果所 有的函 
数都 是非递 归的， 可以从 那些不 调用其 他函数 的函数 开始， 每次确 定一个 组成该 程序的 函数的 
运行 时间， 然后 为那些 “只调 用已确 定运行 时间的 函数” 的 函数评 估运行 时间。 我们以 这种方 
式继续 评估， 直到评 估完所 有函数 的运行 时间。 

不同 函数可 能有不 同的输 人大小 的自然 量度， 这 一事实 带来了 一些复 杂性。 在 一般情 况下， 
函 数的输 入就是 该函数 的参数 列表。 如 果函数 F 调用 了函数 G， 就必须 将函数 G 中参 数的 大小量 
度 与函数 F 所使 用的 大小量 度联系 起来。 这里很 难给出 实用的 通则， 不过 本节和 下一节 中的一 
些示 例将有 助于我 们了解 简单情 况下为 函数确 定运行 时间边 界的过 程是怎 样的。 

假 设已经 确定， 函数 F 运 行时间 的良好 上界是 ⑻）， 其中 《 是函数 F 参 数大小 的度量 。那 
么在 某条简 单语句 （ 比如一 条赋值 语句） 中对 F 进行调 用时， 就要将 的开 销加到 那条语 
句的 运行时 间中。 

当 上界为 0(A(«)) 的函数 出现在 while 语句、 do-while 语句或 if 语 句的条 件中， 或 出现在 
for 语 句的初 始化、 测 试或重 初始化 中时， 该函数 调用的 时间是 按如下 方法计 算的。 

(1)  如果 函数调 用是在 while 循环或 do-while 循 环的条 件中， 或在 for 循环的 条件或 重初始 
化中， 那么 就要在 每次迭 代的时 间边界 上加上 A(«)， 然 后按照 3.7 节 中获取 循环运 行时间 的方式 
继续 下去。 

(2)  如果 函数调 用是在 for 循环 的初始 化中， 就在循 环的时 间开销 上加上 00 ⑻）。 

(3)  如果 函数调 用是在 if 语 句的条 件中， 就 在该语 句的时 间开销 上加上 A(«) 。 


简述程 序分析 

大家 应该从 3.7 节和 3.8 节中了 解到的 主要观 点如下 。 

□  一 系列 语句的 运 行时间 就 是每一 条语句 运 行时间 的和。 通常， 如 果某一 语句的 运 行时间 
至少 与其他 语句一 样大， 那么它 就可以 主导其 他语句 。根 据求和 规则， 主 导语句 的运行 
时间 就是这 一系列 语句的 大 0 运行 时间。 

□要计 算循环 的运行 时间， 先要将 循环体 的时间 与各控 制步骤 （ 比如重 初始化 for 循环的 
循环 指标并 将其与 上限相 比较） 的运 行时间 相加。 用 这个时 间去乘 以循环 迭代次 数的上 
界。 接着， 将那 些一次 性完成 的步骤 （比如 初始化 或第一 次终止 测试） 的时 间加上 ，以 
防循 环迭代 0 次 的情况 出现。 

□ 选 择语句 （例如 i f - else 语 句） 的 运 行时间 是决 定执 行哪个 分支所 花的 时间与 各分 支运 
行时间 中 较大的 那个 相加而 得到的 之和。 


♦ 示例 3.23 

让我 们分析 一下图 3-21 中的 （无意 义的） 程序。 首先， 你会注 意到这 不是一 个递归 程序。 
main 函数 会调用 foo 函数和 bar 函数， 而且 foo 函数 会调用 bar 函数， 不过 这就是 全部的 调用关 
系了。 图 3-22 所 示的图 称为调 用图， 表示 函数调 用其他 函数的 方式。 因为图 中不含 循环， 所以 
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# include  <stdio.h> 
int  bar(int  x，  int  n) ; 
int  f  oo (int  x ,  int  n) ; 

mainO 

{ 

int  a,  n; 

scanf (n%d" ，  &n) ; 

a  =  f oo(0 ，n) ; 

printf  (,,7od\nn  ,  bar (a,n) ) ; 

} 

int  bar (int  x,  int  n) 

{ 

int  i ; 

for  (i  =  1;  i  <=  n;  i++) 
x  +=  i ; 
return  x; 

> 

int  f oo( int  x ,  int  n) 

{ 

int  i ; 

for  (i  =  1;  i  <=  n;  i++) 
x  +=  bar (i ,n) ; 
return  x; 

} 


程 序中没 有递归 调用， 而 且可以 首先从 “第 0 组” （就 是不调 用其他 函数的 函数， 在本例 中就是 
bar 函数） 开始分 析这些 函数， 接 着处理 “第 1 组” （就 是只 调用第 0 组中 函数的 函数， 在 本例中 
就是 foo 函 数）， 再处 理“第 2 组” （就 是只 调用第 0 组和第 1 组中 函数的 函数， 在本例 中就是 main 
函 数)。 至此， 工 作就完 成了， 因为所 有的函 数都已 经被分 组了。 在 一般情 况下， 可能要 考虑分 
更多 的组， 不过 只要其 中不含 循环， 最终就 能将每 个函数 都放在 一个组 别中。 


图 3-21 展示非 递归函 数调用 的程序 


图 3-22 图 3-21 所 7K 程序的 调用图 
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我们 分析函 数运行 时间的 顺序， 也就 是为了 理解该 程序的 行为而 对其进 行研究 的顺序 。因 
此， 首先考 虑一下 bar 函数 是做什 么的。 第 (4) 行和第 (5) 行的 for 循环 会将从 1 到 《 的这 《个 整数都 
加到 X 上， 结 果就是 等于 x  +  [;=i/。 这里 的和式 ^ 彳又是 个为算 术级数 求和的 例子， 

只要 将第一 项与最 后一项 相加， 乘以 项数， 然后 再除以 25 阿。 也就是 2^=1/  =  (1  + 咖 /2。 因此， 
bar(x,  n)  =  x  +  (l  +  n)n  /  2 。 

现在， 考 虑一下 foo 函数， 它 会给它 的参数 x 加上 和式 

n 

y」bar{i，n) 

i=\ 

根据 我们对 bar 函数 的了解 可知， = /  +  «(«  +  1)/2 。 因此， foo 函数 就是给 x 加上了 
+  +  这 个量。 这 样就要 为另一 个算术 级数求 和了， 而 这个算 术级数 需要更 多的代 

数 变换。 不过， 读者可 以验证 一下， £00函数加到乂上的这个量就是(《3+2^2+«)/2。 

最 后看看 main 函数。 我 们在第 (1) 行读人 《， 在第 (2) 行将 foo 应用到 0和《 上。 根据 我们对 foo 
函数的 理解， 第 (2) 行 foo(0,n) 的 值就是 0 加上 03+2«2+«)/2 。 在第 (3) 行， 要将 
bar  (  foo  ( 0  ,  n)  ,  n) 的值打 印出来 ，根 据我 们对 bar 函数 的理解 ，这就 是《(«  + 1)/2 与 foo  (a,  n) 
当前值 的和。 因此， 要打印 的值就 是(《3+2«2+^)/2 。 

现在来 分析图 3-21 所 示程序 的运行 时间， 从 bar 函数 开始， 到 foo 函数， 再到 main 函数， 
一 如我们 在示例 3.23 中 所做的 那样。 在 这种情 况下， 我们要 确定值 《 是所有 三个函 数的输 入的大 
小。 也就 是说， 即 便我们 通常想 考虑函 数所有 参数的 “大 小”， 但在 本例中 函数的 运行时 间只取 
决于 《。 

要分析 bar 函数， 先要注 意到第 (5) 行 所花的 时间为 0(1)。 第 (4) 行和第 (5) 行的 for 循 环要迭 
代《 次， 所以第 (4) 行和第 (5) 行 的运行 时间是 0 ⑻ 。第 (6) 行花 的时 间也是 0(1) ， 所以第 (4) 行至第 
⑹行的 程序块 的运行 时间是 0 ⑻。 

接 着分析 foo 函数。 第 (8) 行的 赋值语 句花的 时间是 0(1) 加 上调用 bar  (i,n) 所用的 时间。 
而我 们已经 知道， 该调 用花的 时间为 00)， 所以第 (8) 行的 运行时 间就是 0 ⑻。 第 (7) 行和第 (8) 
行的 for 循环 要迭代 《 次， 所 以可以 用循环 体的运 行时间 乘上循 环迭代 的次数 《， 得 到调用 
foo 函数 的运行 时间是 (902) 。 

最后 来分析 main 函数。 第 (1) 行 所花的 时间为 0(1) ， 第 (2) 行对 foo 函 数的调 用所花 的时间 
为 0(n2) ， 第 (3) 行的打 印语句 所花的 时间为 0 ⑴加 上调用 bar 函数 所花的 时间。 而后者 所花时 
间为 0 ⑻， 所以 整个第 (3) 行 所花的 时间为 0(1)  + 0 ⑻。 因此 从第⑴ 行到第 (3) 行 的整个 程序块 
的运行 时间为 0(1)  +  0(«2)  +  0(1)  +  0(«)。 根 据求和 规则， 可 以消除 第二项 之 外的所 有项， 得出 
该函数 的运行 时间为 0(«2)。 也就 是说， 第 (2) 行对 foo 函数的 调用决 定了整 个时间 开销。 


证明和 对程序 的理解 

读者 可能注 意到， 在对图 3-21 所示程 序的研 究中， 我们能 理解程 序在做 什么， 却不 能像在 
第 2 章 中那样 正式地 证明点 什么。 不过， 在这 表面之 下却潜 藏着诸 多简单 的归纳 证明。 例如， 
需 要对第 (4) 行和第 (5) 行 循环迭 代的次 数进行 归纳， 证明 在我们 用值为 / 的 i 开始 迭代 之前， x 的 
值是 x 的初始 值加上 。 请 注意， 如果 z_  =  l, 这 个和式 不含任 何项， 则其 值会为 0。 


习题 
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(1)  证 明示例 3_23 中的 结论： +  +  =("3  +  2”2  +")/2 。 

(2)  假设 prime  (n) 是运行 时间为 0(士） 的函数 调用。 考 虑一下 函数体 如下的 函数： 

if  (  prime  (n) ) 
else 

B; 

分别 假设： 

(a) J 所花的 时间为 0(n)  ,  5 所花的 时间为 O ⑴； 

(b；M 和 5 所 花的时 间都为 0(1) 。 

用 n 的函 数表示 岀这两 种情况 下该函 数运行 时间的 简单大 0 上界 和紧大 0 上界。 

(3)  考虑 函数体 如下的 函数： 

sum  =  0; 

for  (i  =  1;  i  <=  f (n) ;  i++) 
sum  +=  i ; 

其中 /(«) 是函数 调用。 分别 假设： 

⑻ / ⑻ 的运行 时间是 0 ⑷， 而 /(«) 的 值是？ 7!; 

(b)  /(«) 的运行 时间是 0(«) ， 而 / ⑻的 值是？ ?.； 

(c)  /(«) 的运行 时间是 0(n2) ， 而 / ⑻的值 是《; 

(d)  f(n) 的运行 时间是 0 ⑴ ，而 / ⑻ 的值是 0。 

用 n 的函 数表 示出这 4 种情况 下该函 数运行 时间的 简单大 0 上界 和紧大 0 上界。 

(4)  绘出 2.8 节归并 排序程 序中函 数的调 用图。 那个程 序是否 为递归 程序？ 

(5)  * 假设图 3-21 中 foo 函 数的第 (7) 行被 替换为 

for  (i  =  1;  i  <=  bar (n,n) ;  i++) 

那么 main 函数的 运行时 间会是 多少？ 

3.9 递 归函数 的分析 

确定 递归调 用自身 的函数 的运行 时间， 需要 比分析 那些非 递归函 数耗费 更多的 精力。 递归 
函数的 分析需 要我们 将程序 中的每 个函数 F 与某 个未 知的运 行时间 TF{n) 关联 起来。 这一 未知的 
函数将 F 的运 行时间 表示为 F 函数参 数的大 小《的 函数。 然后 构建一 套归纳 定义， 称为 的递 
推 关系， 将 与 同一程 序中其 他函数 g 及其相 应的参 数大小 & 表示的 形式关 联起来 。如 
果 F 是直 接递 归的， 那么 G 中至 少有一 个将与 F 是相 同的。 

7>(«) 的值通 常是通 过对参 数大小 《 的归 纳取 得的。 因此， 需要选 择合适 的参数 大小， 保证 
随着 递归的 进行， 函 数在被 调用时 所使用 的参数 在逐渐 减小。 这一 要求与 我们在 2.9 节中 试图证 
明有关 递归程 序的命 题时遇 到的要 求别无 二致。 这应 该没什 么可奇 怪的， 因为有 关程序 运行时 
间的 命题正 是我们 可能试 着证明 的与程 序相关 的某种 内容。 

一 旦找到 了合适 的参数 大小， 就 可以考 虑以下 两种情 况了。 

(1)  参数 大小足 够小， 使 F 不进 行递归 调用。 这种情 况对应 7>(«) 归纳定 义中的 依据。 

(2)  对 于较大 的参数 大小， 将 至少会 发生一 次递归 调用。 请 注意， 无论 F 进行 怎样的 递归调 
用， 不 管是对 其自身 还是对 某个其 他函数 G 进行 递归 调用， 都只可 能使用 更小的 参数。 
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这种情 况对应 TF(n) 归纳 定义中 的归纳 步骤。 

通过 对函数 F 的代 码的 研究， 并完 成如下 操作， 可 以得出 7>(«) 递推 关系的 定义。 

(a)  对函数 G 的每次 调用或 表达式 中函数 G 的每 次使用 （请 注意， G 可 能就是 F)， 用 仏⑹ 
表示该 次调用 的运行 时间， 其中 &是对 该次调 用中参 数大小 的合理 度量。 

(b)  运 用前面 几节中 介绍的 技巧评 估函数 F 的函 数体 的运行 时间， 不 过要将 这样的 
项留 作未知 函数， 而不 是诸如 这样 的具体 函数。 一般不 能用求 和规则 这样的 简化技 
巧把这 些项与 具体函 数结合 起来。 我们 必须对 F 进 行两次 分析， 一 次假设 F 的参 数大 
小《足 够小， 使得函 数未进 行递归 调用， 而另一 次假设 《 不是那 么小。 因此， 我们得 
到了两 个表示 F 函数 运行时 间的表 达式。 其一 （依 据表 达式） 是 7>(«) 递推关 系的依 
据， 另一个 （归 纳表 达式） 则是 ⑹递 推关系 的归纳 部分。 

(c)  在得岀 的有 关函数 F 运行时 间的依 据表达 式和归 纳表达 式中， 用 特定常 数乘上 有关函 
数 （例如 c/ ⑻） 的 形式来 代替像 0(/ ⑻) 这 样的大 0 项。 

(d)  如果 输入大 小的依 据值为 a， 令 是在 假设 不存在 递归调 用的情 况下， 由步骤 (c) 
得出的 依据表 达式。 还有， 令 ⑹是 从步骤 ⑷ 得到的 《 值不为 依据值 a 的情况 下的归 
纳表 达式。 


int 

fact (int  n) 

{ 

(1) 

if  (n  <=  1) 

(2) 

return  1;  /*  依据  */ 

else 

(3) 

> 

return  n*f act  (n-1)  ;  /*  归纳  */ 

图 3-23 计算 n! 的程序 

通过 求解这 个递推 关系， 就可以 确定整 个函数 的运行 时间。 在 3.11 节中， 我 们将介 绍一些 
一 般性的 技巧， 用来 在对普 通递归 函数的 分析中 求解这 种递推 关系。 而 现在， 我 们要通 过特别 
手段来 求解这 些递推 关系。 

♦ 示例 3.24 

我们来 重新考 虑一下 2.7 节中 计算阶 乘函数 的递归 程序。 因为 只涉及 fact 这一 个函数 ，所 
以使用 r(«) 表 示该函 数未知 的运行 时间。 我们将 使用参 数的值 〃作为 参数的 大小。 显然， 当参 
数为 《时 进行的 fact 函数 的递归 调用， 要使用 更小的 参数， 准确 地说是 《-1。 

我 们选择 n  =  l 作为 六《) 归纳 定义的 依据， 因为当 fact 函数的 参数为 1 时， 它 不执行 任何递 
归 调用。 当《  =  1 时， 第 (1) 行 的条件 为真， 因此对 fact 的 调用会 执行第 (1) 行和第 (2) 行。 每一行 
花的时 间都是 0(1)， 所 以依据 情况中 fact 的运行 时间为 0(1)。 也 就是说 r(l) 是 0(1)。 

现在考 虑当〃 >1 时 会发生 什么。 第⑴行 的条件 为假， 因此只 执行第 ⑴ 行和第 (3) 行。 第⑴行 
花的 时间是 0(1) ， 而第 (3) 行会 在乘法 和赋值 上用掉 (9 ⑴， 并在对 fact 的递 归调用 上花费 r(«_l)。 
也就 是说， 当《>1 时， &沈的运行时间是0山+  7>-1)。 因 此可以 用以下 递推关 系定义 r(«)。 
依据。 7t0=(9(l)。 

归纳。 ,  r(«)  =  <9(i)+ro— 1)。 

现 在要引 人一些 常数符 号来表 示隐藏 在各大 0 表达式 中的 常数， 就 像之前 在规则 (c) 中表述 
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的 那样。 在 这种情 况下， 可 以用某 个常数 a 代替依 据中的 0(1)， 并用某 个常数 6 替代归 纳中的 
0 ⑴。 这 些变化 给了我 们如下 的递推 关系。 

依据。 7t0=fl。 

归纳。 对 《>i ， r(«)  =  z>+r(«-i) 。 

现在必 须求解 r(«) 的这 一递推 关系。 我们很 容易计 算岀靠 前的一 些值， 由递 推依据 2Xl)=a ， 
以 及归纳 规则， 我 们得到 

T{2)  =  b  +  T{\)  =  a  +  b 

继续使 用归纳 规则， 就得到 

T(3)  =  b  +  T(2)  =  b  +  (a  +  b)  =  a  +  2b 

然后是 

r(4)  =  b  +  T(3)  =  b  +  (a  +  2b)  =  a  +  3b 

至此， 不难 猜测， 对 所有的 " 彡 1， 有 r(«)  =  a  +  («-i0。 其实， 计算 一些样 本值， 接着 猜测解 
决 方案， 并最终 通过归 纳法证 明猜测 正确， 这就是 我们常 用来处 理递推 关系的 方法。 

不过， 在 这个例 子中， 我 们可以 使用反 复代换 （ repeated  substitution ) 的方法 直接得 岀解决 
方案。 首先， 在递归 等式中 进行如 下变量 代换， 用 m 替换 《， 就得到 

对 m>l ， T(m)  =  b  +  T(m-\)  (3.3  ) 

现在， 可以用 《、 1、 n-1、 …、 2 替 换等式 (3.3) 中的 m， 得到 一系列 的等式 

(1)  T{n)  =b  +  T(n-\) 

(2)  T{n-\)  =  b  +  T{n-2) 

(3)  T(n-2)  =  b  +  T(n-3) 


n-\)  T(2)  =b  +  T(\) 

接 下来， 可 以利用 上述系 列等式 中的第 (2) 行， 来 替换第 (1) 行中的 r(«-i) ， 从而得 到等式 

T(n)  =  b  +  (b  +  T(n-2))  =  2b  +  T(n-2) 

现 在用第 (3) 行 替换上 式中的 r(«- 2)， 就得到 

T(n)  =  2b  +  (b  +  T(n-3))  =  3b  +  T(n-3) 

按 这种方 式继续 下去， 每一 次都将 r(«)-/ 替换为 1)， 直到向 下达到 r(i)。 至此 ，就 
得到 了等式 

T{n)  =  {n-\)b+T{\) 

接着可 以利用 依据， 用 a 替换 r(i) ， 就可 以得到 7»  =  a  +  («  -  1)Z> 。 

如 果想让 该分析 过程更 正式， 就需要 通过归 纳法， 对 我们在 反复对 进 行替换 时的直 
观 观察结 果加以 证明。 因此， 我 们要通 过对啲 归纳证 明如下 命题。 

命题  S ⑴。 如果  1  ^  ^  , 那么  T{n)  =  ib  +  T{n-i)  0 

依据。 依据为 /  =  1， 劝) 是说 r ⑻ =  6+70-1)。 这是对 r(«) 的定 义中 的归纳 部分， 因此 
已知 为真。 

归纳。 如果 0«-1， 就没什 么要证 明的， 因为 命题识 /+1) 的 开头是 “如果 
而当 if 语句的 条件为 假时， 不管 “ 那么” 后面是 如何表 述的， 该 命题都 为真。 在 这种情 况下， 
若 n-l ， 则条件 z_  +  l<n —定 为假。 所以 SG  +  l) —定 为真。 

难点就 在于， 当 / 彡 《-2 的 时候。 在 这种情 况下， s ⑴就是 r(«)  = 访 +  r(«-o 。 因为 
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i^n-2  , 所以 r(«-/) 的参数 至少为 2。 因 此可以 将该归 纳规则 应用到 r 上， 也 就是用 替换 
等式 (3.3) 中的 m ， 从而得 岀等式 T(n  -  i)  =  b  +  T (n  - i  -I)  o 当 我们用 6  +  T(«  -/-l) 替换 掉等式 
r(/7) = 边 +  r(«  - 0 中的 r(«-/) 时， 就得到 T{n)  =  ib  +  (b  +  T(n-i-\)) , 重组 这些项 就得到 

T(n)  =  (i  +  l)b  +  T(n-(i  +  l)) 

这个等 式就是 命题负 /  +  1) ， 而 且我们 现在已 经证明 了归纳 步骤。 

现 在已经 证明了  r(«)  =  a  +  («-l)6。 不过， a 和 6 都是 未知的 常数。 因此， 这 样表示 解决方 
案是不 行的。 不过， 可以将 r(«) 表示为 《 的多 项式， 即如 +  (fl- 幻， 接着 再用大 0 表达式 来替代 
这 些项， 就 得到了 0(«)  +  0(1)。 利 用求和 规则， 还可 以消掉 0 ⑴， 从 而得岀 r(«) 是 0(«)。 这就 
有意 义了， 它 表示： 要 想计算 《!, 就要 利用对 (实际 调用次 数刚好 为《) 调用的 顺序， 
其中 每次调 用所需 时间为 0(1) ， 不计 人花在 执行对 fact 的 递归调 用上的 时间。 

习题 

(1)  为 2.9 节习题 (2) 中 提到的 sum 函数 （它是 作为程 序输人 的表的 长度的 函数） 的 运行时 间建立 递推关 
系。 请用 （未 知的） 常数 替换大 0 项， 并试着 求解这 种递推 关系。 sum 的运行 时间是 多少？ 

(2)  对 2.9 节习题 (3) 中 提到的 findO 函数重 复习题 (1) 中的 练习。 合适 的大小 量度是 什么？ 

(3)  * 对 2.7 节中图 2-22 所 示的选 择排序 程序重 复习题 (1) 中的 练习。 合适 的大小 量度是 什么？ 

(4)  ** 对图 3-24 中的 函数重 复习题 (1) 中的 练习， 该函数 是计算 斐波那 契数的 （最开 始的两 个数是 1， 
之 后的每 个数都 是其前 两个相 邻数字 之和。 前 7 个斐波 那契数 分别是 1、 1、 2、 3、 5、 8、 13) 。 
请 注意， 》 的值 是合适 的参数 大小， 而且 大家需 要使用 1 和 2 作 为依据 情况。 


int  f ibonacci (int  n) 

{ 

if  (n  <=  2) 
return  1 ; 
else 

return  f ibonacci (n-1)  +  f ibonacci (n-2) ; 

> 


图 3-24 计算 斐波那 契数的 C 语言 函数 

(5)  * 编写 递归程 序计算 gcd(i,  j  ) ， 就是两 个整数 i 和 j 的最 大公 约数， 如 2.7 节习题 (8) 中 概述的 那样。 
证明 该程序 的运行 时间是 O(log0 。 提示： 在我 们调用 gcd(m, 川两次 后证明 这一点 （其中 
md  1 2 、 。 

3.10 归 并排序 的分析 

我 们现在 要分析 2.8 节 中介绍 过的归 并排序 算法。 首先要 证明， merge 函数和 split 函数在 
处理 长度为 〃的 表时， 所 花的时 间都是 0(«); 接着 使用这 些边界 来证明 MergeSort 函数 在处理 
长度为 《 的表时 所花的 时间为 (901og«) 。 

3.10.1  merge 函数 的分析 

首先 分析递 归函数 merge ， 我 们在图 3-25 中再 次展示 了它的 代码。 merge 函数参 数大小 《 
的 合适概 念是表 listl 和 list2 的长 度之和 。 因此， 设 r(«) 是当 参数表 的长度 之和为 《 时 merge 
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LIST  merge (LIST  listl,  LIST  list2) 

{ 

if  (listl  ==  NULL)  return  list2 ; 
else  if  (list2  ==  NULL)  return  listl ; 
else  if  (listl->element  <=  list2 -〉 element)  { 
listl->next  =  merge (listl- >next ,  list2) ; 
return  listl; 

} 

else  {  /*  list2 的第 一个元 素更小 */ 

list2 - >next  =  merge(listl ,  list2 - >next) ; 
return  list2; 


函数 所花的 时间。 我们 可以拿 《  =  1 的 情况作 为依据 情况， 因此 必须在 listl 和 list2 二 者中有 
一个 为空而 另一个 仅含一 个元素 的假设 下对图 3-25 进行 分析。 有以 下两种 情况。 

(1)  如果第 (1) 行的 测试 （也 就是 listl 等于 NULL 的测 试） 成功， 我们 就返回 list2, 这所 
花的 时间为 0(1)。 第 (2) 行至第 (7) 行 就不会 执行。 因此， 整个函 数调用 所花的 时间为 测试第 (1) 
行 选择的  <9 ⑴ 和 执行第 (1) 行 赋值的 0(1) ， 总共是 (9 ⑴。 

(2)  如果第 (1) 行的 测试 失败， 就说明 listl 不 为空。 因 为我们 假设两 个表的 长度之 和只是 1， 
所以 list2 —定 为空。 因此， 第 (2) 行的 测试 （即 list2 等于 NULL 的测 试） 一定会 成功。 那么我 
们 就要花 0(1) 来 执行第 (1) 行 的测试 ，花 0(1) 执行第 (2) 行的 测试， 再花 0(1) 在第 (2) 行返回 
listl。 第 (3) 行至第 (7) 行不会 执行。 所 花的时 间还是 0 ⑴。 

这样可 以得出 在依据 情况中 merge 的运行 时间为 0(1) 。 


图 3-25  merge 函数 

现 在来考 虑归纳 情况， 也 就是表 长度之 和大于 1 的 情况。 当然， 即 便长度 之和为 2 或者 更大， 
仍然 可能有 一个表 为空。 因此， 嵌套 的选择 语句所 表示的 4 种情况 都可能 发生。 图 3-25 中 程序的 
结构 树如图 3-26 所示。 我们 可以从 结构树 的底部 开始， 向上 分析该 程序。 


\ ― /  \ — /  、 — ~ /  \ ― /  \ — /  \ ― /  \ — / 
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并 根据测 试的结 果选择 执行第 (4) 行和第 (5) 行， 或 执行第 (6) 行和第 (7) 行。 第 (3) 行 的条件 需要花 
0(1) 的 时间来 评估， 第 (5) 行 要花上 0(1) 来 评估， 而第 (4) 行 所花的 时间是 0(1) 加上递 归调用 
merge 所花 的时间 TU -7)。 请 注意， 《-1 是递 归调用 的参数 大小， 因为我 们已经 从一个 表中剔 
除 了一个 元素， 并 保持另 一个表 不变。 因此第 (4) 行和第 (5) 行的 程序块 所花的 时间为 0(1)  + r(n-l) 。 

对第 (6) 和第 (7) 行中 else 部分 的分析 是完全 一 样的： 第 (7) 行所花 时间为 (9(1) ， 而第 (6) 行所 
花 时间为 (9(1)  +八《-1) 。 因此， 在选取 if 部分和 else 部分运 行时间 的最大 值时， 会发现 这两者 
其 实是相 同的。 测试条 件所花 的时间 0 ⑴可以 忽略， 因此可 以得岀 结论： 最内层 选择的 运行时 
间是 o(i)  +  r(«- 1)。 

现在 继续分 析从第 (2) 行 开始的 选择。 我们要 在这一 行测试 list2 是 否等于 NULL。 测 试条件 
的 时间为 0(1)， 而 if 部分 的时间 （就 是第 (2) 行的 返回） 也是 0(1)。 不过， else 部 分是第 (3) 
行至第 (7) 行 的选择 语句， 这 部分语 句的运 行时间 我们刚 才确定 过了， 是 o(i)+r(«-i)。 因此 ，第 
(2) 行至第 (7) 行 的选择 所花的 时间为 

0(1)  +  max  (0(1),  (9 ⑴  +  T(n-\)) 

最大值 中的第 二项主 导了第 一项， 也 主导了 测试条 件所花 的时间 0(1)。 因此， 从第 (2) 行 开始的 
if 语句的 运行时 间也是 0 ⑴ +r(n-i) 。 

最后， 要对最 外层的 if 语 句进行 同样的 分析。 从根本 上讲， 对 时间起 主导作 用的还 是由第 
(2) 行至 第⑺行 组成的 else 部分的 时间。 


递 归的共 通形式 

很多极 简单的 递归函 数 （ 比如 f  ac  t 和 merge  ) 都会执 行一 些所需 时间为 (9 ⑴的 操作 ，然 
后对 它们自 己执行 参数大 小减小 1 的递归 调用。 假设 依据情 况花的 时间为 0 ⑴， 可以看 到这样 
的函 数总能 形成: nx)  =  <9 ⑴ +  r(«- 1) 这样 的递推 关系。 r(«) 的解是 (9(«) ， 或者 是参数 大小的 
线性 关系。 在 3.1 1 节 中 我们还 将看到 对这 一原则 的一些 概括。 


也就 是说， 这些含 递归调 用的情 况 （ 比如第 (4) 行和第 (5) 行， 或第 (6) 行和第 ⑺行） 下的 时间， 
主 导了不 含递归 调用情 况下的 时间， 还主 导了第 (1)、(2) 和 (3) 行中 所有 3 次 测试的 时间。 因此 ，当 《>1 
时, merge 函数 的运行 时间上 界就是 0 ⑴ + - 1) 。 因 此可以 得到用 于定义 T(«) 的如 下递推 关系。 
依据。 八1)  =  (9 ⑴。 

归纳。 Xt  «>1 ，  T(n)  =  0(1)  +  —  1) 。 

这 些等式 与示例 3.24 中为 fact 函数 得出的 那些等 式如出 一辙。 因此， 求解过 程是相 同的， 
可 以得岀 r(«) 是 的 结论。 该 结果从 直观上 讲是成 立的， 因为 merge 函 数的工 作原理 就是花 
0(1) 的时 间从其 中一个 表里删 除一个 元素， 然后对 剩余的 表递归 地调用 自身。 这 种递归 调用遵 
循着递 归调用 的次数 不大于 表长度 之和的 原则。 如果不 考虑其 递归调 用所花 时间， 那么 每次调 
用 均耗时 (9 ⑴， 如 此就可 以得岀 merge 的运 行时间 将会是 (9(«) 。 

3.10.2  split 函数 的分析 

现 在来考 虑一下 split 函数， 我 们在图 3-27 中 再次展 示了该 函数。 对 split 函数的 分析和 
对 merge 函 数的分 析非常 相似。 我 们令表 的长度 为参数 的大小 《 ， 而且这 里使用 7"(«) 表示 split 
函 数处理 长度为 〃的表 所花的 时间。 
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LIST  split (LIST  list) 

{ 

LIST  pSecondCell; 

if  (list  ==  NULL)  return  NULL; 
else  if  (list->next  ==  NULL)  return  NULL; 
else  {  /* 至 少有两 个单元 */ 
pSecondCell  =  list->next ; 
list->next  =  pSecondCell - >next ; 
pSecondCell->next  =  split (pSecondCell->next) ; 
return  pSecondCell; 


图 3-27  split 函数 

我 们选取 《  =  0 和 《  =  1 作为 依据。 如果〃  =  0 ， 也就 是说表 为空， 那么第 (1) 行的 测试 就会成 
功， 而我们 将在第 (1) 行返回 NULL。 第 (2) 行至第 (6) 行 就不会 执行。 因此 所花的 时间为 0(1)。 如 
果 《  =  1， 也就 是表只 含一个 元素， 那么第 (1) 行 的测试 失败， 不过第 (2) 行 的测试 成功。 因此我 
们 会在第 (2) 行返回 NULL, 而且不 执行第 (3) 行至第 (6) 行。 同样， 这 两条测 试语句 和一条 返回语 
句 只需要 0 ⑴的 时间。 

接 着考虑 《>1 时的 归纳 部分， 这 里存在 3 条选择 分支， 类 似我们 在分析 merge 函数时 遇到的 
4 条 分支。 简单 来说， 可以 看岀， 第 (1) 行和第 (2) 行 的测试 不论是 执行一 个还是 两者都 执行， 所 
花时 间都是 0(1)， 正 如我们 最终为 merge 函 数得出 的结论 那样。 而且， 如 果这两 个测试 中有一 
个 为真， 就会 致使我 们在第 (1) 行或第 (2) 行返 回的情 况中， 多 花的时 间也是 0(1)。 占主导 的时间 
是两个 测试均 失败的 情况， 也就是 表长度 至少为 2 的 情况。 在 这种情 况下， 第 (3) 行至第 (6) 行的 
语 句都要 执行。 除了第 (5) 行的 递归调 用外， 其他 的内容 所花的 时间为 0(1)。 而递 归调用 的时间 
是 T(n-2) ， 因 为该参 数表是 list 原 来的值 减去它 的前两 个元素 （想 知道 原因， 可 以参考 2.8 节 
中的 内容， 特 别是图 2-28)。 因此， 归纳情 况下的 r(«) 是 0(l)  +  n«-2)a 

可以 建立如 下递推 关系。 

依据。 2X0)  =  (9 ⑴ ，且  r(l)  =  (9 ⑴。 

归纳 。对  ”>1， r(«)  =  <9(i)  +  r(«— 2)。 

如示例 3.24 所述， 接下 来必须 引人某 些常数 来表示 隐藏在 0 ⑴背后 的比例 常数。 可 以分别 
用常数 a 和 6 表示 依据中 7X0) 和 Ttl) 的 0(1)， 并 用常数 c 表示 归纳步 骤中的 0(1)。 因此， 可以将 
上述递 归定义 重写为 

依据。 no)  =  a, 且 r(l)  =  6。 

归纳。 M  2  ,  r(«)  =  c  +  r(w_2) 。 

我 们先来 求一下 r(«) 的前几 个值。 由 依据， 显然有 r(o)  =  dnr ⑴ =  6。 可以 使用归 纳步骤 

得出 

T(2)  =  c  +  T(0)  =  a  +  c 

T(3)  =  c  +  T(l)  =  b  +  c 

T(4)  =  c  +  T(2)  =  c  +  (a  +  c)  =  a  +  2c 

T(5)  =  c  +  T(3)  =  c  +  (b  +  c)  =  b  +  2c 

T(6)  =  c  +  r(4)  =  c  +  (a  +  2c)  =  a +  3c 
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对 n«) 的计算 其实是 两部分 单独的 计算， 一 部分是 《 为奇 数的 情况， 一部分 是《 为偶数 的情况 。对 
偶数 《， 我们有 r(«)=a  +  c«/2。 这是可 行的， 因为 对长度 为偶数 的表， 剔除 两个元 素所花 的时间 
为 c, 而且在 经过〃 /2 次 递归调 用后， 就会得 到不再 对其进 行递归 调用而 且所花 时间为 a 的空 表。 

对 奇数长 度的表 来说， 还是要 花时间 c 来剔除 两个元 素的。 在经过 1)/2 次调 用后， 我们 
得到 了一个 长度为 1 的表， 而且 需要的 时间为 6。 因此， 奇 数长度 的表所 需的时 间将是 
b  +  c(n  - 1)  /  2 。 

对这些 观察结 果的归 纳证明 与示例 3.24 中的 证明过 程非常 近似， 就 是要证 明如下 命题。 

命题岛 _)。 如果 1 彡 / 彡 《/2, 那么 r(«)=/c+r(«-2/)。 

在该 命题的 证明过 程中， 我 们使用 r(n) 定义中 的归纳 规则， 用参数 m 将其 重写为 
对'  m  ^  2  ,  T (m)  =  c  +  T(m-2)  (3.4) 

接着就 可以按 照如下 方式用 归纳法 证明从 /)  了。 

依据。 依据是 /  =  1， 也就是 用《 替代 m 后的 等式 (3.4)。 

归纳。 因为 S ⑺是 “如果 …… 那么 …… ” 的 形式， 所以若 z •彡 《/2, 则 SG  +  1) 恒为真 。因 
此， 若 / 彡 《/2, 我们 就不需 要对归 纳步骤 （即 由从 /) 可得到 *SG_  +  1) ) 加以 证明。 

难 点是当 1 彡 / 彡 《  /  2 时。 在 这种情 况下， 假 定归纳 假设况 0 为真 ，即八 《)  =&  +  7X«  -  2/) 。 
用 《  -  2/ 替换 (3 .4) 中的 m ， 就得到 

T{n  —  2z)  =  c  +  T  (n  —  2i  —  2) 

如果 替换识 /) 中的 r(«  -  2/) ， 就得到 

T{n)  =  ic  +  [c  +  T(n-2i-2)) 

如果 对等式 右边的 项加以 组合， 就有 

T{n)  =  {i  +  \)c  +  T{n-2{i  +  \)) 

这就 是命题 对/  +  1)。 因此我 们证明 了归纳 步骤， 而 且得岀 r(«)=/c  +  ro-2z_)。 

现在， 若《为 偶数， 则令 /  =  «/2。 则从 《/2) 就表示 r ⑻ =  c«/2  +  r(0) ， 也就是 a  +  c«/2。 
如果 《为 奇数， 就令 /  =  («- 1)/2。 巧0-1)/2) 就表示 r(«)  =  cO- l)/2  +  7Xl) ， 也 就等于 
b  +  c(n-l)/2, 因为有 r(l)=Z>。 

最后， 必须将 特定于 编译器 和机器 的常数 a、 纟和 c 改写 为大 0 表示。 多项式 a  +  c«/2 和 
6  +  c(«-l)/2 都 具有与 〃成比 例的高 阶项。 因此， 该问题 中不论 《是 奇数还 是偶数 其实是 没关系 
的， 两种 情况下 split 的 运行时 间都是 00)。 这 又是个 很直观 的正确 解答， 因为对 长度为 《 的 
表 来说， split 会进行 约《/2 次递归 调用， 每次调 用的时 间都是 0(1)。 

3.10.3  MergeSort  函数 

最 后要介 绍一下 MergeSort 函数， 我 们在图 3-28 中再次 展示了 该函数 。 对参 数大小 的合适 
量度 《还 是待排 序表的 长度。 在 这里， 我们 要使用 穴《) 表示 MergeSort 处理 长度为 〃的表 的运行 
时间。 

我们选 取《  =  1 的 情况作 为依据 情况， 而 《>1  (发 生递归 调用） 的 情况则 作为归 纳情况 。如 
果对 MergeSort 加以 研究， 就会 发现， 除 非从另 一 个函数 中调用 参数为 空表的 MergeSort ， 
不 然是没 办法在 参数为 空表的 情况下 进行调 用的。 原因 在于， 只有 当表中 至少具 有两个 元素时 
也就 是分拆 后得到 的两个 表中都 至少有 一个元 素时， 才会 执行第 (4) 行。 因此可 以忽略 《  =  0 的情 
况， 并 直接从 〃  =1 开始进 行归纳 证明。 
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LIST  MergeSort(LIST  list) 

{ 

LIST  SecondList ; 

(1)  if  (list  ==  NULL)  return  NULL; 

(2)  else  if  (list->next  ==  NULL)  return  list ; 
else  { 

/* 表中至 少有两 个元素 */ 

(3)  SecondList  =  split (list) ; 

(4)  return  merge (MergeSort (list) ,  MergeSort (SecondList) ) ; 
}  ~ 

} 


图 3-28 归并排 序算法 


依据。 如果 list 由一 个元素 构成， 就会 执行第 (1) 行和第 (2) 行， 而不执 行其他 代码。 因此， 
在 依据情 况中， r ⑴是 0 ⑴。 

归纳。 在 归纳情 况中， 第 (1) 行和第 (2) 行的 测试 都是失 败的， 因 此可以 执行第 (3) 行和第 (4) 
行的程 序块。 为 了简化 问题， 可以假 设《是2 的 乘方。 作出这 种假设 的好处 在于， 当《 为偶 数时， 
刚好 会将表 分割成 长度为 《/2 的两 等分。 此外， 如果 《是2 的乘 方， 那么 《/ 2 也是 2 的乘方 ，每 
次递 归结束 二分岀 来的都 是等分 的表， 直到 每个表 中只含 一个元 素为止 。当 《>1 时， MergeSort 
所 花的时 间为下 列各项 之和。 

(1) 两 次测试 所花的 0(1)。 

⑺ 第 (3) 行的赋 值和对 split 的调用 所花的 0(1) +  0 ⑻。 

(3)  第 (4) 行对 MergeSort 第 1 次递 归调用 所花的 T、n  1 2、 。 

(4)  第 (4) 行对 MergeSort 第 2 次递 归调用 所花的 T(«  /  2) 。 

(5)  第 (4) 行调用 merge 所花的 (9(«) 。 

(6)  第 (4) 行的返 回语句 所花的 0 ⑴。 


跳过某 些值的 归纳法 

读者不 应该为 MergeSort 函 数的分 析中涉 及的新 型归纳 法感到 担心， 尽管 在证明 过程中 
我们跳 过了除 2 的乘 方之外 的所有 数值。 一般情 况下， 如果 /_2、 …是一 列与我 们想证 明的命 
题 S 有关的 整数 ，就可 以证明 ) 作为 依据， 并对 所有的 7 •证 明， ) 可推出 识 ~+1 ) 。 这 就是一 
般情况 下我们 所认为 的对/ 进行归 纳的归 纳证明 。 更精确 地说， 由 义命题 义。 然后 
通过对 j •的 归 纳证明 S'(j) 。 这样 的话， 就可 以是 &  =  1 、 i2  =  2 、 i3  =  4  , 而一 般形式 就是心 =  2i_1 。 

顺便提 一 句， 请 注意， MergeSort 的运 行时间 r(«) 不 会随着 《 的增 加而 减少。 因此， 证明 
了 对等于 2 的 乘方的 《 有 r(«) 是 c>oiog«) ， 也就证 明了对 所有的 《 都有 r(«) 是 c>(«iog«) 。 


如 果将这 些项加 起来， 然后依 据调用 split 和 merge 的  <9(«) 更大 而舍弃 0(1) ， 就可 以得出 
在 归纳情 况中， MergeSort 的运 行时间 边界是 27X«/ 2)  +  (9 ⑻。 因此 得到以 下递推 关系。 

依据。 7^1)  =  6^1)。 

归纳。 r ⑻ =  27X«/2)  +  (9 ⑻， 其中 《是2 的 乘方而 且大于 1。 

下一 步是要 用含具 体常数 的函数 代替大 0 表 达式。 我们在 依据中 用常数 a 代替 0(1)， 并在归 
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纳步骤 中用如 代替 0(«)， 因 此递推 关系就 变形为 
依据。 1X1)  =  fl。 

归纳。 T{n)  =  lT{nll)  +  bn ， 其中 《是2 的 乘方而 且大于 1。 

这一递 推关系 要比我 们之前 了解的 更难， 不 过我们 还是可 以利用 相同的 技巧。 首先， 可以 
为一些 较小的 《值 直接 写出 的值。 依据 说明了  r(l)  =  a， 而 归纳步 骤则告 诉我们 


T(2) 

=  2T(l)  +  2b 

—  2a  +  2b 

，(4) 

=  2T(2)  +  4b 

=  2(2a  +  2b)  +  4b 

— 4a  +  Sb 

m 

=  2T(4)  +  Sb 

=  2(Aa  +  Sb)  +  Sb 

—  8a  +  246 

T(16) 

=  2r(8)  +  16Z> 

=  2(U  +  24b)  +  \6b 

— - \6a  +  64b 

想 直接看 岀接下 来的情 况可不 容易。 显然， 的系数 与《的 值是同 步的， 也 就是说 穴《)是《乘 
上 a， 再加上 某个数 量的心 不过 6 的系 数要比 《 增长得 更快。 6 的系数 与《 之间的 关系可 以归纳 
为 如下： 


« 的值  2  4  8  16 

6 的系数  2  8  24  64 

比率  1  2  3  4 

比率是 用系数 6 除以 《 的值得 到的。 因此， 看起来 6 的系数 是《 乘上 〃每次 翻倍便 会增长 1 的 另一个 
因子。 具体 来讲， 我们 可以看 出这个 比率是 log2 « ， 因为 log22  =  l， log2  4  =  2,  log28  =  3, 且 
log2 16  =  4 。 因此 推测递 推关系 的解为 T(n)  =  an  +  bn log2  n 是合 理的， 至少 对表示 2 的乘方 的《 
来说如 此。 我 们将看 到该公 式是正 确的。 

要 为该递 推关系 求解， 先 遵从前 面的示 例中使 用过的 策略。 我们 将归纳 规则写 成参数 m 的 
函数， 形如 

对 w  为 2 的 乘方且  m>l，  T(m)  =  2T(m/2)  +  bm  (3.5) 

接着 可以从 r(«) 开始， 利用 (3.5)， 用具 有较小 参数的 表达式 来代替 r(«) ， 在 这种情 况下， 要替 
换的 表达式 是关于 r(«/ 2) 的。 也 就是， 首先有 

T(n)  =  2T(n/2)  +  bn  (3.6) 

接 下来， 利用 (3.5)， 将 m 替换为 《/2, 从而得 到替换 (3.6) 中 r(«/2) 的表 达式。 也 就是， （3.5) 说 
明有 r(«/2)=2r(n/4)+W2 , 而 我们可 以将 (3. 6) 替换为 

T{n)  =  2(2T  (n/  4)  +  bn/  2)  +  bn  =  4T  ("  /  4)  +  2bn 
然后， 可以用 《/4 代替 (3.5) 中的 m， 从而将 r(«/4) 替换为 2r(«/8)  +  Zw/4 ， 从 而得到 
T(n)  =  4(2T(n /S)  +  bn/4)  +  2bn  =  87>  /  8)  +  3 如 
我们要 通过对 / 的归 纳证明 的命 题就是 

命题 抓）。 如果 i<«siog2«， 那么 r ⑻ 。 

依据。 对 /  =  i ， 命题 劝) 就是说 r ⑻ =  2r(«/2)+Zm 。 这个 等式是 对归并 排序运 行时间 r(«) 
的 定义中 的归纳 规则， 因此 可知依 据是成 立的。 

归纳。 就像那 些归纳 假设是 “如果 …… 那么 …… ” 形 式的归 纳证明 一样， 如果 / 在假 设范 
围 之外， 那么 归纳步 骤必定 成立， 这里， / 彡 log2« 时就 是这种 简单的 情况， 这时负 z_+l) 显然 
成立。 
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再 来看看 困难的 情况， 假设 Kiog2n 。 还要 假定归 纳假设 劝) 成立， 就是 r ⑻ =  21  r(«  n^+ibno 
用 《/2; 替换 (3.5) 中的 m， 就得到 

T{n  IT)  =  2T(n/  2i+l)  +  bn/T  (3.7) 

用 (3.7) 的右 边替换 劝) 中的 r(«/2% 就得到 

T{n)  =  T  (2T(n/2M )  +  bn/2i)  +  ibn 
=  2i+lT(n/2M)  +  bn  +  ibn 
=  2i+lT(n/2i+l)  +  (i  +  l)bn 

最终的 等式就 是命题 M/  +  1) ， 这样 就证明 了归纳 步骤。 

于是可 以得岀 抓） ， 也就是 r(«)  =  TTin/l^  +  ibn 对在 1 和 log2« 之间 的任意 / 都是 成立的 。现 
在 要考虑 公式负 log2«)， 也就是 

T(n)  =  2loS2"T(n/2loe2n)  +  (log2  n)bn 

我 们知道 (请 回想 一下， log2« 的定义 就是， 使 2 变为 n, 要对 2 乘 方的次 数）。 还有 
n/2l0^n  =10 因此 Rlogj) 可 以写为 

T{n)  =  nT(\)  +  bn  log2  n 

由 r 的定 义中的 依据， 还知道 =  因此， 

7>)=  - an  +  bn  log2  n 

在经过 这段分 析后， 必须 将常数 a 和 6 替换 为大 0 表 达式， 即八《)是0(«)  +  0(«1叩《)。（1)因 
增长得 更慢， 所以可 以忽略 0 ⑻ 这项， 直接说 r(«) 是 0(>log«)。 也就 是说， 归并 
排 序算法 的时间 量级是 0(« log «)。 请 记住， 我们 已经证 明了选 择排序 的运行 时间是 0(«2)。 虽 
然严格 地讲， 这里的 0(«2) 只是个 上界， 但是它 其实是 选择排 序的最 紧简单 边界。 因此， 可以 
确定， 随着 《 不断 变大， 归并排 序要一 直比选 择排序 运行得 更快。 从实践 上讲， 对 值大于 几十的 
« 来说， 归 并排序 要比选 择排序 更快。 

3.10.4  习题 

(1)  绘出 下列函 数的结 构树。 

(a)  split 

(b)  MergeSort 

(2)  * 将 紐各归 并排序 函数定 义为把 一个表 分为碚 卩分， 在为每 部分排 序后合 并各部 分得到 结果。 

(a)  用 & 和 n 的 函数表 示的; t 路归 并的 运行时 间是怎 样的？ 

(b)  **什 么样的 々值可 以带 来最快 的算法 （ 用 n 的函 数表 示）？ 这 个问题 要求大 家对运 行时间 作岀足 
够 精确的 估算， 从而 保证自 己可以 区分一 些常数 因子。 出于 我们在 本章开 头所讨 论过的 原因， 
在实践 中不可 能那样 精确， 所 以大家 需要研 究一下 由习题 (a) 中得到 的运行 时间是 怎样随 着女变 
化的， 并据此 得出近 似的最 小值。 

3.11 为 递推关 系求解 

求 解递推 关系的 技巧有 很多。 本 节将讨 论两种 方法。 第一， 就 是我们 已经看 到的， 反复将 


①请 记住， 在大 0 表达 式中， 我们不 必为对 数指定 底数， 因为这 里的对 数是在 常数因 子中， 所以所 有底数 的对数 
都是一 样的。 
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递归规 则代换 到它们 自 身中， 直 到得出 r(«) 与 r(i) 的 关系， 或者 r(n) 与依 据给出 的某个 r(0 之 
间 的关系 （如果 1 不是 依据的 话)。 第二种 方法是 猜测一 种解， 并将 其替换 到依据 和归纳 规则中 
以验 证其正 确性。 

在 3.9 和 3. 10 两 节中， 我们 已经为 r(«) 准确求 解了。 不过， 因为 r(«) 实 际上是 确切运 行时间 
的大 0 上界， 所 以找出 r(«) 的紧 上界就 够了。 因此， 特别 是对于 “猜 测并 验证” 的 方法， 只需 
要求岀 的 解是递 推关系 真正解 的上 界就可 以了。 

3.11.1 通 过反复 代换为 递推关 系求解 

示例 3.24 所示 的递推 关系可 能是我 们在实 践中遇 到的最 简单的 递推关 系了。 

依据。 ？Xl)  =  a。 

归纳。 x 才  n>i ，  r(«)  =  r(«— 1)+6 。 

如果 可以在 归纳中 将常数 ^ 换成某 个函数 g(«) , 就可以 将这种 形式进 一步一 般化， 于是我 
们可以 将这种 形式写 成下面 这样。 

依据。 7^1)  =  fl。 

归纳。 对 《>i ， r(«)  =  r(«-i)+g(«) 。 

只要 递归函 数花了 时间以 ~ ， 并接着 用比当 前函数 调用所 使用的 参数小 1 的参 数调用 自身， 
就岀现 了这种 形式。 例子 有示例 3.24 中 的阶乘 函数、 3.10 节中的 merge 函数， 以及 2.7 节 中的递 
归选择 排序。 在前 两个函 数中， g(«) 是常 数， 而在第 三个函 数中， #«)是《 的线性 函数。 3.10 
节中的 split 函数 也基本 是这种 形式， 只 不过它 递归地 调用自 身所使 用的参 数是依 次减小 2 的。 
我 们应该 明白， 这 种差别 是不重 要的。 

接下来 通过反 复代换 来求解 该递推 关系。 正 如示例 3.24 中 那样， 首 先将归 纳规则 用参数 m 
的 函数表 示出来 ，即 

T(m)  =  T(m-\)  +  g{m) 

接着 反复替 换原归 纳规则 右边的 r。 这 样做， 就可 以得到 一串表 达式： 

r ⑻ =  r(«- 1)+ 茗⑻ 

=  T{n-2)  +  g{n-\)  +  g{n) 

=  T{n-2>)  +  g{n-2)  +  g(n  - 1)  +  g{n) 

=  T(n-i)  +  g(n  一  /  + 1)  +  g(n  一  /  +  2)  +  •  •  •  +  g(n  -1)  +  g{n) 
运 用示例 3.24 中 介绍的 技巧， 就 可以通 过对满 归纳， 证明对 /  =  1、2、 …、 《-1， 有 

T(n)  =  T(n—i)  +  YJg{n-j) 

j=o 

我们希 望选择 一个値 ，让 依据 情况可 以涵盖 r(m_) ， 因此我 们选择 /  =  因为 r(i)  =  fl ， 

所以有 r ⑻ 换句 话说， r(«) 就 是常数 加上从 2 到 的所有 g 之和， 或 者说是 
a  +  g(2)  +  g(3)  +  〜  +  g(«) 。 除非 所有的 g(y) 都为 0， 否则在 将该表 达式转 换为大 0 表达 式时， a 
这 项都是 无关轻 重的， 因 此一般 只需要 的和就 行了。 

♦ 示例 3.25 

考虑 一下图 2-22 所示的 递归选 择排序 函数， 我 们在图 3-29 中重 新展示 了该函 数的函 数体。 
在需 要为含 w 个元 素的 数组排 序时， 也就是 当参数 / 的值为 m 时， 如果设 Select ionSort 函 
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if  (i  <  n-1)  { 

small  =  i; 

for  (j  =  i+1;  j  <  n;  j++) 
if  (A[j]  <  A  [small] ) 
small  =  j ; 
temp  =  A [small] ; 

A  [small]  =  A[i] ; 

A  [i]  =  temp; 
recSS(A，  i+1 ，  n) ; 


数 的运行 时间为 r(m) ， 那么就 可以得 出关于 r(m) 的如 下递推 关系。 首先， 依据是 m  =  l 。 这时， 
只有第 (1) 行 执行， 花的 时间为 0(1) 。 


图 3-29 递 归的选 择排序 

对 m>l 时的 归纳， 我们 会执行 第⑴行 的测试 以及第 (2)、 ⑹、 （7)、 （8) 行的 赋值， 这 些语句 
的运行 时间是 0 ⑴。 而第 (3) 至第 (5) 行的 for 循环 的运行 时间为 00-0, 或者 0(m)， 就 像我们 
在示例 3.17 中 讨论过 的迭代 选择排 序程序 那样。 要知道 原因， 请 注意第 (4) 行和第 (5) 行的 循环体 
所花的 时间为 0(1)， 而我们 要进行 m-1 次 循环。 所以， 该 for 循环 的运行 时间主 导了第 (1) 至第 
(8) 行 的运行 时间， 这样就 可以将 整个函 数的运 行时间 r(m) 写为 r(m- l)  +  0(m)。 第 2 项 0(m) 覆 
盖了第 (1) 至第 (8) 行， 而 r(m-l) 这项 则是第 (9) 行 的递归 调用的 时间。 如 果将隐 藏在大 0 表达式 
背后的 常数因 子替换 为某个 具体的 常数， 就可以 得到以 下递推 关系。 

依据。 7X1)  =  fl。 

归纳 o 对 m>l ， T(m)  =  T(m-l)  +  bm  0 

该 递推关 系具有 我们研 究过的 形式， 其中 =  也就 是说， 该递 推关系 的解为 

m—2 

T{m)  =  a  + 

7=0 

= a  +  2b  +  3b  +  mmm  +  mb 
=a  +  b(m—  l)(m  +  2)/2 

因此 r(m) 是 (9(m2) 。 我 们感兴 趣的是 Select ionSort 函 数处理 长度为 《 的整个 数组时 的运行 
时间， 也就 是说， 当用 〖=1 调用函 数时， 我 们需要 r(«) 的表 达式， 并得 出它是 0&2)。 因此， 
递归的 选择排 序是二 次的， 就像迭 代的选 择排序 那样。 

递推的 另一种 常见形 式是在 3.10 节中为 MergeSort 函 数得出 的递推 关系。 

依据。 7X1)  =  fl。 

归纳。 T ⑻ =  2r(«/2)  + 名⑻， 其中 《是2 的 乘方而 且大于 1。 

该递 推关系 表示的 是一个 递归 算法， 它通过 将大小 为《的 问题细 分为两 个大小 为《/2 的 子问题 
来解决 问题。 这里 g ⑻是创 建子问 题以及 结合解 决方案 所花的 时间。 例如， MergeSort 将大小 
为《 的问 题分为 大小为 《/2 的两个 部分。 函数 g(«) 具 有如的 形式， 其中 6 是某个 常数， 因为 
MergeSort 除了 递归调 用自身 之外， 所花的 时间是 (9(«) ， 主要就 是用在 split 和 merge 算 法上。 

要求解 该递推 关系， 需要替 换等式 右边的 r。 这里我 们假设 对某个 贿《  =  2~ 递推关 系可以 
写为 参数为 w 的函 数： T (m)  =  2t(m  /  2)  +  g(m) 。 如果用 《/2' 替换 m, 就得到 

T(n  !T)  =  2T(n/2i+l  )  +  g(n/2i) 


123456789 


/ V  / - \  / - V  / - V  / - N  / - '  / - \  / - V  / - V 


(3.8) 
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如 果由归 纳规则 开始， 接着用 / 值逐渐 变大的 (3.8) 替换 r， 就 会发现 

T{n)  =  2  T(n/  2)  +  g{n) 

=  2(2nn/22)  +  g(n/2))  +  g(n) 

=  22T(n/22)  +  2g(n/2)  +  g(n) 

=  22  [2T{n  /  23)  +  g(«  /  22))  +  2g(«  /  2)  +  g(n) 
=  23T(n  /  23 )  +  22  g(«  /  22 )  +  2g(n/2)  +  g(n) 


=  2T(«/2!')  +  ^2yg(«/20 
y=o 

如果 我 们知道 r(n/2q  =  r(i)  =  fl。 因此， 当 /  =灸 时， 也 就是当 /  =  iog2« 时， 可 以得到 
递 推关系 的解为 

(log2  n)-\ 

T{n)  =  an+  j]  2jg(n/2J)  (3.9) 

)=o 

直观 地讲， （3.9) 的第一 项表示 依据值 a 带来的 时间， 也 就是以 大小为 1 的 参数调 用该递 归函数 
« 次的 时间。 而 和项则 是递归 所花的 时间， 它表 示以大 小大于 1 的参数 执行的 所有调 用的总 时间。 

图 3-30 展示了 MergeSort 函数执 行期间 的时间 积累情 况。 它 表示为 8 个元素 排序的 时间。 
第一行 表示最 外层的 调用， 涉 及全部 8 个 元素； 第二 行表示 对两组 4 个元素 的两次 调用； 第三行 
表示对 4 组两个 元素的 4 次 调用。 最后， 底 部那行 表示对 长度为 1 的 表调用 MergeSort 共 8 次 。一 
般 来说， 如果原 始无序 表中有 《个 元素， 那么 通过引 发其他 调用的 MergeSort 调用 完成如 的工 
作 就需要 10§2«层 调用， 因此 这些调 用累计 的时间 就是如 log2«。 还将有 一层的 调用不 会引起 
进 一步的 调用， 这些 调用所 花的总 时间是 ⑽。 请 注意， 前 1%2«层 调用表 示的是 (3.9) 中的 和项， 


图 3-30 对 MergeSort 的调 用所花 的时间 


♦ 示例 3.26 

在 MergeSort 的情 况中， 函数 g(«) 是如， 其中 ^ 是某 个常数 。 因此 含这些 参数的 (3.9) 的解 

就是 

(log2  n)-\ 

2j  bn  1 2J 

7=0 

(log2  n)-\ 

= an  +  bn  ^  1 

)=o 

= an  +  bn  log  n 
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最后 得出的 等式是 因为和 项中有 log2« 个项， 而这些 项都是 1。 因此， 当以 《) 是线性 函数时 ，式 
(3.9) 的 解就是 0(«log«)# 

3.11.2 通过猜 测解为 递推关 系求解 

求解递 推关系 的另一 种实用 方法就 是猜测 一个解 m ， 接 着使用 递推关 系证明 
r(n)<f(n)。 这 可能不 会给出 r(«) 的精 确值， 不过如 果它给 出了紧 上界， 也是能 令人满 意的。 
通常 我们只 会猜测 /(«) 这样 的函数 形式， 不去指 定一些 参数。 例如， 我们 可以猜 测对某 fl 和办， 
f(n)  =  anb 。 这些参 数的值 都是确 定的， 因为 我们要 为所有 《 证明 T(«) 彡/ («) 。 

虽 然可能 觉得能 准确猜 测解是 件离奇 的事， 但我 们经常 能通过 观察一 些较小 〃值所 对应的 
r(«) 来推 断出高 阶项。 然 后就可 以舍弃 某些低 阶项， 并看 看它们 的系数 是否非 0。 ® 

♦ 示例 3.27 

我们 再来研 究一下 3.10节中介绍过的]^19630]^1递推关系， 将 其写为 
依据。 1X1)  =  a。 

归纳。 r ⑻ =  27X«/2)  +  g ⑻， 其中 《是2 的 乘方而 且大于 1。 

我们 要猜测 T(«) 的 上界是 / ⑻ =  ozlog2«  +  d ， 其中 c 和碟 某些 常数。 回想 一下， 这 种形式 
并 不完全 正确， 在之 前的示 例中， 我们得 出的解 都具有 0(dog«) 项以及 0(«) 项， 而不 带常数 
项。 不过， 这 个猜测 对证明 0(«1(^«)是7(«) 的上界 来说已 经足够 好了。 

接着要 对《进 行完全 归纳， 证 明以下 命题， 其中 c 和 d 是某些 常数。 

命题 *S(«)。 如果 《 是 2 的乘方 而且 《 彡 1 ， 那么 r(«) 彡 /(«)， 其中 / ⑻是 函数 c«log2«  +  d。 
依据。 当《  =  1 时， r ⑴彡 / ⑴表示 《 彡 V， 因为当 《  =  i 时， /(«) 中 c«iog2 « 这项 的值为 0, 
则 /(i)  =  J ， 而且之 前已经 给定了 八1)  =  <3。 

归纳。 对 所有的 /<«， 假设 劝) 为真， 并证明 对某些 《>1， 双《) 为真。 如果 〃不是 2 的 乘方， 
就没什 么好证 明的， 因为这 时具有 “如果 …… 那么 …… ” 形式 的命题 的如果 部分不 为真。 
因此， 考虑 困难的 情况， 也就是 《是2 的 乘方的 情况。 可以 假设况 《/2) 为真， 也就 是假设 

T(n/  2)^：  (cn  /  2)  log2  (n/  2) +  d 
因 为它是 归纳假 设的一 部分。 对归 纳步骤 来说， 需 要证明 

T(n)^  / (n)  =  cn  log,  n  +  d 
当《彡2 时， n«) 定义 的归纳 部分告 诉我们 

T(n)  dT{n  I  T)  +  bn 
将归纳 假设应 用到办 /2) 的 边界， 就有 

T(n)  ^  2[c(n  /  2)  log2  («/  2)  +  d]  +  bn 

因为 log2(«/2)  =  log2  n  -  log2  2  =  log2  n-  \  , 所 以可以 将这一 表达式 简化为 

T {n)  ^  cn  log2  n  +  (b- c)n  +  2d  (3.10) 

现 在要证 明 r(«) 彡 c«log2  «  +  d ， 条件是 (3. 10) 右 边的式 子中， c«log2  «  +  d 之外 的部分 最多为 0, 
也就 是说⑺ -咖 +  d 彡 0。 因为 《>1， 所以当 d 彡 0 且办 -c 彡 - d 时该 不等式 成立。 

要让 /(«)  =  cnlog2«  +  d 成为 r(«) 的 上界， 需要满 足以下 3 条 约束。 


① 要 知道， 与递 推关系 理论很 类似的 微分方 程理论 也依赖 于一些 常见形 式的方 程的已 知解， 并据此 通过合 理的猜 
测求 解其他 方程。 
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(1)  约束 a  <  d 来自 依据 部分。 

(2)  d>0 来 自归纳 部分， 不过因 为已知 a>0, 所以由 (1) 便可得 到该不 等式。 

(3)  b-c^-d  , 或者说 c 彡办 +  d, 也是来 自归纳 部分。 

如果令 d  =  a 而且 c  =  a  +  6 ， 那么 这些约 束显然 可得到 满足。 我们 现在就 通过对 《的 归纳证 明了， 
对 所有大 于等于 1 且为 2 的乘方 的《 ，有 

T(n)  ^  (a  +  b)n  log,  n  +  a 

该参数 表明了 r(«) ， 也 就是说 r(«) 的增 长速度 不会比 《iog« 快。 不过， 我们 
得到 的边界 02  +  ^)«log2  «  +  a 要 比示例 3.26 中得到 的确切 解答如 log2  «  +  稍大一 些， 但 至少是 
成功 得到了 边界。 假 使我们 选择了 更简单 的猜测 /(«)  =  c«log2« ， 可 能就失 败了， 因为 不存在 
可以使 / ⑴彡 a 的 c 值。 原因 在于， cxlxlog2l  =  0  , 这样就 有/⑴ =  0。 如果 a>0, 就显 然不能 
使 / ⑴彡 a  0 


不等式 的处理 

示例 3.27 中的 不等式 T  (ji)  ^  cn  log2  n  +  d  , 是从另 一 个 不等式 log2  n  + 
(办 -c)«  +  2d 得 出的。 方法 是找出 “ 多余的 量”， 并 要求它 至多为 0。 一 般的原 则是， 假 设有不 
等式 A 彡 B  +  E ， 那么 如果 要证明 ASB  , 只 需 要证明 E6Q 就 够了。 在示例 .27 中， J 是 Tin) , 
cn log2  n  +  d  , 而那个 “多余 的量” 是 (6-c)«  +  i/。 


♦ 示例 3.28 

现在考 虑的是 在本书 后续内 容中将 要遇到 的一 个递推 关系。 

依据。 G(l)  =  3。 

归纳。 对《>1,  G(n)  =  (2n,2+l)G(n/2)0 

该递推 关系包 含的是 实际的 数字， 而 不是像 《 这样 的符号 常数。 在第 13 章中， 我们将 使用这 
样 的递推 关系计 算电路 中门的 数量， 而且门 的数量 是可以 准确计 出的， 不需 要用大 0 表 示法去 
隐藏 不可知 的常数 因子。 

如 果我们 考虑一 下通过 反复代 换得到 的解， 就可能 发现， 要将 G{n) 用含 G(l) 的 项表示 出来， 
需 要进行 log2(«-l) 次 代换。 随 着代换 的不断 进行， 就会得 到因子 

{Tn  +1)(2"/4+1)(2"/8+1)-(21+1) 

如 果舍去 每个因 子中的 “+1” 项， 就会 近似地 得岀积 也就是 

2«/2+w/4+«/8+...+1 

或者 如果为 指数部 分的几 何级数 求和， 就是 2”'  也就是 2”  的 一半， 因 此可以 猜测， 2〃  是解 G{n) 
中 的项。 不过， 如 果猜测 /(«)  =  c2n 是 G(«) 的 上界， 就可能 会求解 失败， 读者可 以自行 验证。 
也就 是说， 我们得 到了两 个涉及 c 的不 等式， 但 它们不 是解。 

因此 我们会 猜测下 一种最 简单的 形式， f(n)  =  cT+d  , 而这 样就能 成功求 解了。 也就 是说， 
可以 通过对 《 的完全 归纳证 明以下 命题， 其中 c 和 d 是某些 常数。 

命题外 ?）。 如果 ^ 是 2 的乘 方且 "彡 1 ， 那么 G(«) 彡 c2”+d 。 

依据。 如果 《  =  1， 那么必 须证明 G ⑴彡 ， 也就是 3 彡 2c  +  d。 该不 等式变 成了对 c 
和 d 的 约束。 
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归纳。 像示例 3.27 那样， 唯一的 难点出 现在当 《为2 的乘 方而且 要从负 《/2) 证明双 《)时 。这 
种情况 下等式 就成了 

G(n/2)^c2n,2  +d 

必 须证明 负《)， 也就是 G ⑻彡 c2”+d。 首先从 G 的归 纳定义 开始。 

G(n)  =  (2n,2 +l)G(n/ 2) 

然 后用得 到的上 界替换 G(«  /  2) ， 就将 上述表 达式转 换成了 

G(n)^(2n,2  +I)(c2n,2  +d) 

加以 简化， 就得到 

G{n)^cT  +{c  +  d)2n'2  +d 

这 要给出 所需的 G ⑻的 上界 c2"+d， 因此就 要有右 侧多余 的部分 (c  +  d)2n/2 不大于 0, 而 
这 只需有 c  +  就足 够了。 

我们需 要选择 c 和 d 来满足 两个不 等式。 

(1)  源 于依据 部分的 2c  +  d^3  o 

(2)  源 于归纳 部分的 c  +  d 彡 0 。 

例如， 如果 ^  =  3且^/  =  -3, 则两 个不等 式都能 满足。 那 么我们 就知道 G(«) 彡 3(2”-1)。 因此， 
G ⑻是随 着《 指数增 长的。 刚 好这个 函数就 是确切 的解， 也 就是说 G ⑻ =  3(2” -1)， 读 者可以 
自 己通过 的 归纳来 证明这 一点。 


对解 的总结 

下面 的表格 中列出 了一些 最常见 的递推 关系， 其中包 括本节 未曾介 绍的。 在 每种情 况中， 
假 设依据 等式为 八1)  =  a ， 而且有 k>Q。 


归 纳等式 

T{n) 

T{n)  =T{n  -l)-\-bnk 

0{nM) 

r(«) = cr(« — l) + 加4 其中  c>i 

0{cn) 

T(n)  =  cT(n  /  d)  +  其中  c>dk 

0{n'0SdC) 

T(n)  =  cT(n  /  d)  +  其中  c<dk 

0{nk) 

T(n)  =  cT(n  !d)  +  bnk  %^c  =  dk 

0{nk  logn) 

若 上述等 式中的 被 替换为 任意的 yb 欠 多 项式， 其结论 也都是 成立的 


3.11.3 习题 


(1) 设 r(n) 是由 如下递 推关系 定义的 

对 《>1 ， T(n)  =  T(n-l)  +  g{n) 
通过对 / 的归纳 证明， 如果 那么 


T(n)  =  T(n-i)  +  Yjg(n-  j) 


(2) 假设有 如下形 式的递 推关系 
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r(i)  =  a 

对 ri>\  ,  T{n)  =  T{n-\)  +  g{n) 

如果 g(«) 分别是 

(a)  n2 

(b)  n2  +  3n 

(c)  nm 

(d)  nlogn 

(e)  2" 

给岀解 的紧大 O 上界。 

(3)  假设有 如下形 式的递 推关系 
r(l)  =  a 

当 n 是 2 的乘 方且  n>l  时， T{n)  =  T{n/l)  +  g{n) 

如果 g(«) 分别是 

(a)  n2 

(b)  2n 

(c)  10 

(d)  nlogn 
⑷ 2” 

给岀解 的紧大 o 上界。 

(4)  * 将下 列各项 作为如 下递推 关系的 解进行 猜测。 

7(1)  =  a 

当 n 是 2 的乘 方且 n>l 时， T(n)  =  2T(n/2)  +  bn 

(a)  cn\og2n  +  dn+e 

(b)  cn  +  d 

(c)  cn2 

这暗 示了未 知常数 c、 c/ 和 e 所具有 的哪些 约束？ 对哪 些形式 而言， 存在 TGz) 的 上界？ 

(5)  证明： 如 果我们 为示例 3.28 中的 递推关 系猜测 G(n)<C2" , 那么将 没法找 到解。 

(6)  * 证明： 如果 
T(l)  =  a 

对  n>\  ,  T{n)  =  T{n  -  +  nk 

那么 r(«) 是 <9(岣。 大家可 以假设 & 彡 0。 证 明这是 r(«) 的最紧 简单大 O 上界， 也就 是说， 如果 
m<k  +  l  ,  r(«) 就不是 o(«m)  了。 提示： 用 r(«-z_) (其中 ?_  =  1、2、 … ） 展开 r(«) , 从而 得到上 
界。 要得到 下界， 就 要证明 对某个 特定的 c>0 而言， r(n) 至少是 07t+1。 

⑺ ** 证明： 如果 
T(l)  =  a 

对 《>1 ， T (n)  =  cT(n  -  I)  +  P(n) 

其中 p(n) 是 n 的任意 多项式 且^>1, 那么 T(«) 是 0(cn)。 还有， 证明这 是最紧 简单大 0 上界 ，也 
就 是说， 如果 t/<c, 那么 r(«) 不是 。 

(8)** 考虑递 推关系 
T{\)  =  a 

当 《 是 c/ 的乘 方时， T(n)  =  cT(n  /  d)  +  bnk 
m  Tin  Id1) (其中 /  =  1、2、 … ) 迭代 地展开 T(«)， 证明 

(a)  如果  c>dk  , 那么  T(n) 是 0(nl0SdC) 

(b)  如果  c  =  dk  , 那么  r(«) 是 0(nk  log”) 
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(c) 如果 c<^， 那么 ru) 是 o<y) 

(9)  求解以 下递推 关系， 其中 每个关 系都有 ni)  =  a 。 

(a)  当 《 是 2 的乘 方且  n>l  时, T(n)  =  3T(n  /  2)  +  n2 

(b)  当 n 是 3 的乘 方且？ 7>1  时， T(n)  =  \OT(n  /3)  +  n2 

(c)  当 n 是 4 的乘 方且  n>l  时， T(n)  =  \6T(n/4)  +  n2 
可 能会用 到习题 (8) 中的 解答。 

(10)  求解递 推关系 
r(l)  =  a 

当 n 是 2 的乘方 且 《>1 时， T(n)  =  3nT(n/2) 

(11)  斐波那 契递推 关系是 尺0)=厂 ⑴ =1， 且 
对  n>\  ,  F(n)  =  F(n  - 1)  +  F(n  -  2) 

来 自该数 列的值 F(0)、 F ⑴、 厂(2) …就是 斐波那 契数， 其 中从第 3 个 数起， 每个数 都是相 邻前两 
个数 的和， 见 3.9 节习题 (4)。 设 r  =  (l  +  V?)/2 ， 该常数 r 称为 黄金 比例， 而且其 值约为 1.62。 证明： 
是 0(rH)。 提示： 对 于归纳 部分， 可 以猜测 对某个 n 有 FU) 彡 狀"， 并尝试 通过对 n 的归 纳证 
明该不 等式。 依据必 须是由 n  =  0 和 n  =  1 这两个 值组成 。在 归纳步 骤中， 可以注 意到? ■满足 r2=r  +  \ 
这 ^ '关 系。 

3.12 小结 

以下是 本章涵 盖的一 些重点 概念。 

□许 多因 素会对 程序算 法的选 择产生 影响， 不 过通常 简单、 易 于实现 和高效 起主导 作用。 
□ 大 0 表达式 提供了 一种很 方便的 程序运 行时间 上界表 示法。 

□在 评估 C 语言复 合语句 （比如 for 循环 和条件 语句） 的 运行时 间时， 存在一 些递归 规则， 
这些 规则是 用这些 复合语 句各组 成部分 的运行 时间表 示的。 

□ 通过 绘制表 示语句 嵌套结 构的结 构树， 并按照 从下至 上的顺 序评估 结构树 中各部 分的运 
行 时间， 可以评 估函数 的运行 时间。 

□ 递推 关系是 为递归 程序运 行时间 建模的 一种自 然 方法。 

□要 为递 推关系 求解， 既 可以通 过反复 代换， 也可以 通过先 猜测解 并验证 猜测为 正确的 
方式。 

分 治法是 一种重 要的算 法设计 技巧。 使 用分治 法时会 将问题 分为若 干个子 问题， 这 些子问 
题的 解答将 会组合 成整个 问题的 解答。 可 根据一 些经验 法则来 评估由 此产生 的算法 （运 行时间 
为 0(1)， 且对 大小为 《-1 的 子问题 调用自 身所花 时间为 ) 的运行 时间。 这种 算法的 例子包 
括阶乘 函数和 merge 函数。 

□更 为一 般的情 况是， 函 数花的 时间为 ， 而且对 大小为 《-1 的 子问题 调用自 身花的 
时间是 o<y+1)。 

□如果 函数调 用自身 两次， 而递归 行进了 1叩2«层 （就 像归并 排序那 样）， 那 么总运 行时间 
就是 0(«1%«)乘 上每次 调用的 开销， 再加上 0(«) 乘 上依据 部分的 开销。 在 归并排 序中， 
包括依 据调用 在内， 每次调 用的开 销都是 0(1)， 所以总 运行时 间就是 0(«log«)  +  0 ⑻， 
或者是 (9(«log«) 。 

□如果 函数调 用自身 两次， 而递归 行进了 〃层， 就像 3.9 节习题 (4) 的斐波 那契程 序那样 ，那 
么运行 时间就 是指数 为《 的指数 形式。 
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第 4 章 

组合 与概率 


在计 算机科 学中， 我们 常需要 为事物 计数， 并 度量事 件的可 能性。 计 数属于 数学中 的组合 
学 分支， 而 度量事 件的可 能性则 属于概 率论的 范畴。 本 章要介 绍这两 个领域 的基本 原理。 我们 
会了解 到一些 问题的 答案， 诸 如程序 中有多 少条执 行通路 （execution path)， 或给 定通路 出现的 
可能 性有多 大等。 

4.1 本章主 要内容 

本章 给出了 一系列 越来越 复杂的 情况， 每 种情况 都通过 一个简 单的范 例问题 说明， 借此对 
组合 （或 “计 数”） 加以 研究， 而且 会为每 个问题 推导岀 用于确 定可能 结果数 量的 公式。 要研究 
的 问题包 括以下 几个。 

□为分 配计数 （  4.2 节)。 范例问 题是： 用&种 颜色为 《所 房屋 粉刷共 有多少 种不同 方式。 
□为排 列计数 （4.3 节)。 范例问 题是： 确定 《个 不同项 能构成 多少种 不同的 次序。 

□为 有序选 择计数 （4.4 节）， 也 就是从 《 个不 同事物 中选出 &个， 并 按次序 排列这 Fh 事物。 

范例问 题是： 计算 赛马比 赛中不 同马匹 获得前 三名的 排列方 法数。 

□为 《 个事 物中的 m 个的组 合计数 （4.5 节）， 也就是 从《 个不 同对象 中选择 m 个， 而不 考虑被 
选取 对象的 次序。 范例问 题是： 为可 能的扑 克牌型 计数。 

□为 具有某 些重复 项的排 列计数 （4.6 节)。 范例问 题是： 计算 某些字 母多次 出现的 单词的 
变 位词的 数量。 

□ 为分 发容器 中对象 （可 能具 有重复 对象） 的方 法计数 （4.7 节)。 范例问 题是： 为 给小朋 
友分 发水果 的方法 计数。 

本 章的后 半部分 要讨论 的是概 率论， 涵 盖以下 主题。 

□基本 概念： 概率 空间、 实验、 事件、 事件 概率。 

□条件 概率与 事件独 立性。 这些概 念可帮 助我们 了解， 对 一次实 验结果 （比 如纸牌 的牌面 
图案） 的 观察会 怎样影 响未来 事件的 概率。 

□概率 推理和 方法。 通 过这些 推理和 方法， 可从 与事件 的概率 及条件 概率相 关的有 限数据 
中， 估算 出事件 组合的 概率。 

我们还 将讨论 概率论 在计算 机领域 的一些 应用， 包 括根据 数据进 行或然 性推理 的系统 ，以 
及一类 “ 有很大 概率” 有效 但不保 证一直 有效的 算法。 
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4.2 为分 配计数 

一种 简单却 极重要 的计数 问题是 处理一 组项， 为每 一项指 定某一 组固定 值中的 某个值 。 我 
们需要 确定可 能有 多少种 将值分 配给项 的 方式。 

♦ 示例 4.1 

图 4-1 展示 了一个 典型的 例子， 其中 有并排 4 所 房屋， 而且可 将每所 房屋粉 刷成红 、绿 、蓝 
这 三种颜 色中的 一种。 在本 例中， 房 屋就是 之前所 提到的 “ 项”， 而颜 色就是 “ 值”。 图 4-1 展示 
了 一种可 能的颜 色分配 方式， 其 中第一 所房屋 被刷成 红色， 第 二所和 第四所 被刷成 蓝色， 而第 
三所 被刷成 绿色。 


图 4-1 房屋 颜色分 配的一 种方式 

要回答 “ 有多少 种不同 分配方 式”， 首先 需要定 义我们 所说的 “ 分配” 具 有何种 含义。 在本 
例中， 一种分 配方式 就是一 个具有 4 个值 的表， 其中每 个值都 是从红 、绿、 蓝这 3 种颜色 中任选 
其一。 接下来 要分别 用字母 i?、 G 和 5 来 表示这 3 种 颜色。 而当 且仅当 两个这 样的表 至少有 一个位 
置不 同时， 我们称 这两个 表是不 同的。 

在 这个房 屋与颜 色的例 子中， 可以 为第一 所房屋 任选三 种颜色 之一。 不管为 第一所 房屋选 
择 了什么 颜色， 在粉刷 第二所 房屋时 还是有 这三种 选择。 因 此粉刷 前两所 房屋的 方式有 9 种 ，对 
应着 9 个不 同的字 母对， 每个字 母都是 i?、 G 和 5 这三者 之一。 类 似地， 对 前两所 房屋所 具有的 9 
种分配 方式的 每一种 而言， 都可 以为第 三所房 屋在三 种颜色 中任选 其一。 这样 一来， 前 三所房 
屋 的粉刷 方式就 达到了 9x3  =27 种。 最后， 这 27 种分 配方式 中对应 的第四 所房屋 又都能 在三种 
颜色 中任选 其一， 因此 总共有 27x3  =81 种粉刷 房屋的 方式。 

4.2.1 为分 配计数 的规则 

可以对 以上示 例加以 扩展。 在 一般情 形下， 有一列 《个 “ 项”， 比 如示例 4.1 中的 房屋； 还有 
一组 &个 “ 值”， 如示例 4.1 中的 颜色， 可以 给某个 项指定 这些值 中的任 一种。 一种 分配就 是一个 
含 有《个 值的表 (vpv2 ，…, vj 。 Vi,  v2, …, v„ 中的每 一 个都 是从这 & 个值 中任选 其一。 这种分 配指定 
了 到第 项的 值， 其中 /  =  h  2, 

当有 《 个项， 而 且可以 为每一 项指定 &个值 之 一时， 就会有 V 种不 同的 分配。 例如， 在示例 
4.1 中， 一共有 《  =  4 项， 也 就是有 4 所 房屋， 而且有 A  =  3 个值， 也 就是有 3 种 颜色。 我们 就可以 
计算出 总共有 81 种 不同的 分配。 请 注意， 就是 34  =81 种。 可以 通过对 ^ 的归纳 证明这 一一 般 
规则。 

命题 双《)。 为 《 个项 中每一 项分配 个值 中的任 一个， 共有 V 种方 式。 

依据。 依据为 《  =  1 的情况 ^ 如 果只有 一项， 可以为 它任选 &个值 中的 一个。 因为 f  =々， 所 
以依据 得证。 
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归纳。 假设 命题* S(«) 为真， 并考虑 只《  +  1) ， 也 就是为 《  +  1 项分 别分配 &个值 之一， 共有 F+1 
种 方式。 可以将 这种分 配分解 为给第 一项选 择值， 以及 针对第 一个值 的每种 选择， 为剩下 的《 
项分 配值。 对每 种这样 的选择 而言， 根 据归纳 假设， 剩下的 《 项有 F 种分 配值的 方式。 所 以总分 
配方 式共有 AxF 种， 也 就是有 F+1 种。 因 此我们 证明了  5(«  +  1)， 完成 了归纳 步骤。 

图 4-2 表 示了当 《  +  1  =  4 且 左=  3 时， 即 在示例 4.1 这个讨 论 4 所 房屋和 3 种 颜色的 具体例 子中， 
对第一 个值的 选择以 及相应 的剩余 项分配 方式的 选择。 也就 是说， 在 归纳假 设中假 定选择 3 种颜 
色之 一粉刷 3 所房 屋共有 27 种分配 方式。 

第一 所房屋  其余 3 所房屋 


红色 


绿色 


蓝色 


图 4-2 用 3 种颜 色粉刷 4 所房屋 的分配 方式数 


4.2.2 为位 串计数 

在计 算机系 统中， 我们常 遇到由 0 和 1 组成 的串， 而这 些串往 往用作 对象的 名称。 例如 ，我 
们 可能购 买具有  “64MB 主 内存” 的计 算机。 每 一个字 节都有 自己的 名称， 而这个 名称是 长度为 
26 位的 位序列 ，每 一 '位 要么是 0， 要么是 1。 这种由 0 和 1 组 成的表 7K 名 称的串 就叫作 位串。 

为 什么对 64MB 的内存 来说是 26 位呢？ 答案就 源自分 配计数 问题。 当我 们计算 长度为 《的位 
串的数 量时， 可 以将串 中的位 置视作 “ 项”， 而这些 位置可 能存放 0 或 1 这两个 值中的 一个。 因为 
有两 个值， 所以有 A  =  2, 而为 《 个项分 配二值 之一的 分配方 式共有 种。 

如果 《  =  26, 即考虑 长度为 26 的 位串， 就 可能有 226 种 位串。 226 的精 确值为 67  108  864。 而 
按照计 算机的 语法， 这个 数字会 被视为  “6 400 万”， 虽然 真实的 数字显 然要比 这个值 大上约 5%。 
接 下来的 附注栏 简要介 绍了该 主题， 并 试着解 释了为 2 的乘 方命名 时涉及 的一般 规则。 


K、 M 和 2 的乘方 

将 2 的乘方 转换成 10 的乘 方有个 实用的 技巧。 我们 可以注 意到， 21% 也就是 1024， 与 1000 
是 非常接 近的。 因此， 230  , 也就是 (21G)3, 或者说 大概是 10003 ， 即 10 亿。 那么， 232  =  4x230  , 
也 就是约 40 亿。 其实， 计算机 科学家 通常都 会认可 21。 正好是 1000 的 假设， 并将 21。 说成是 1K， 
其 中 K 表示 kilo  (千） 。例 如， 我们 可将 215 转换成 32K， 因为 

215  =  25  x210  =32x  “1000” 
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return  n; 

> 


int  f  (int  x) 
{ 

int  n: 


4.2.3  习题 

(1)  在 下列情 形中， 分别 有多少 种粉刷 方式？ 

(a)  3 所 房屋， 每一 所可从 4 种颜色 中任选 一种。 

(b)  5 所 房屋， 每一 所可从 5 种颜色 中任选 一种。 

(c)  2 所 房屋， 每一 所可从 10 种颜色 中任选 一种。 

(2)  假设 计算机 密码由 8 到 10 位 字母和 （或） 数字 组成。 可能有 多少种 不同的 密码？ 请 记住， 大 写字母 
和 小写字 母是不 同的。 

(3)  * 考 虑如图 4-3 所示的 f 函数。 f 可以返 回多少 种不同 的值？ 


图 4-3  f 函数 

(4) 在 “ 好莱坞 广场” 游 戏中， X 和 0 可 能以任 意组合 被放置 在井字 棋棋盘 （一个 3x3 的矩阵 ） 9 个格 
子 的任意 一个中 （即与 普通井 字棋玩 法不同 的是， 这里的 X 和 0 不必 要交替 摆放， 所以， 打个 比方， 
所 有的格 子都可 以放上 X) 。 方阵 也可能 为空， 也就 是说， 既不含 X， 也没有 0。 那 么有多 少种不 
同的 摆放方 法呢？ 


而我 们将买 际值为 1  048  576 的 22° 称为 1M， 或者是 1 兆， 而不 是称为 1000K 或 1024K。 对 22° 
到 229 这几个 2 的乘 方数， 我们会 提取出 22° 这个 因子。 因此， 226 就是 26x22°， 或 者说是 64 兆。 
这正是 226 字节 被称为 64 兆 字节或 64  MB 的 原因。 

下 表给出 了多项 10 的 乘方， 以及与 其近似 相等的 2 的 乘方。 


前缀 

字母 

值 

Kilo 

K 

103 或 210 

Mega 

M 

106 或 22° 

Giga 

G 

109 或 230 

Tera 

T 

1012 或 24° 

Peta 

P 

1015 或 250 

本表 格表明 对超过 229 的 2 的 乘方， 我们 分别会 提取出 23° 、 24° 或 是可以 达到的 2 的 任意整 
十次 方作为 因子。 不 管用什 么单位 度量， 剩下的 2 的 乘方会 在命名 时加上 giga-、 tera- 或 peta- 这 
些前缀 。 例如， 243 字 节就是 8TB。 


Nl/  N—/  \ly 

V)-  \1/  o  o  o  o 

o  o  o  o 
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(5)  用 10 个数字 可以组 成多少 种长度 为《 的串？ 其中 某个数 字可能 岀现任 意次， 也可能 根本不 岀现。 

(6)  用 26 个小写 字母可 以组成 多少种 长度为 n 的串？ 其中 某个字 母可以 岀现任 意次， 也可能 根本不 
岀现。 

(7)  根据 上文附 注栏中 所述的 规则， 将以 下内容 转换成 K、 M、 G、 T 或 P: ⑻ 213  (b)  217  (c)  224 ⑹ 238 
(e)  245  (f)  259 。 

(8) *将 以下 10 的乘方 转换成 近似的 2 的乘方 ： （a)  1012  (b)  1018  (c)  10"。 

4.3 为排 列计数 

本 节中我 们将解 决另一 个基础 的计数 问题： 将给定 的《个 不同对 象排成 一列， 可以有 多少种 
不同 的排列 方式？ 这种 排序称 为这些 对象的 排列。 我 们将用 U(n) 表示 《 个对 象的排 列数。 

关 于为排 列计数 在计算 机科学 中的重 要性， 我们 来举例 说明。 假设要 为给定 的《 个对象 A 、 
ai、 …、 a„ 排序。 如果对 这些对 象一无 所知， 那么任 何次序 都可能 是正确 的排序 次序， 因 此排序 
可能 的结果 数就是 n(«)， 也就是 〃个对 象的排 列数。 我们很 快就会 看到， 这 一结果 有助于 证实: 
通 用的排 序算法 所需的 时间与 《log 〃成 正比， 并因此 可证实 3.10 节 中运行 时间为 0(«log«) 的归 
并 排序算 法会快 上某个 常数因 子倍。 

排列计 数规则 还有很 多其他 应用。 例如， 我们 将在后 面的小 节中看 到的， 它 在组合 与概率 
这样更 为复杂 的计数 问题中 也分量 十足。 

♦ 示例 4.2 

为了 直观， 我们 列举一 下微量 对象的 排列。 首先， 显然有 n(i)  =  i。 也就 是说， 如果 只有一 
个对象 4， 就只有 一 •种 次序 j。 

然后考 虑有两 个对象 4 和 5 的 情况。 可 以从两 个对象 中任选 其一排 列在第 一位， 而将 另一个 
对象排 列在第 二位， 因此 有两种 次序： 仙和 5 儿 所以 n(2)  =  2xl  =  2。 

接着 看看有 3 个对象 4、 S 和 C 的 情况。 可以从 三者中 任选其 一排在 首位。 先考 虑选择 J 排在 
第 一位的 情况， 这时 候剩下 5 和 C 这两个 对象， 它 们可以 按两个 对象的 两种次 序之一 分布， 从而 
完 成这一 排列。 因 此可以 看出， 由 2 开头的 排列有 两种， 即灿 C 和 JC5。 

类 似地， 如果以 5 开头， 也 有两种 方式完 成这一 序列， 对应 为剩下 的对象 4 和 C 排序 的两种 
方式， 因此 有序列 A4C 和 5C4。 最后， 如果以 C 开头， 就可 以用两 种方式 为剩下 的对象 4 和 5 排 
序， 从而得 到序列 CMS 和 CA4。 ABC、 ACB、 BAC、 BCA、 C45 和 C&4 这 6 个序 列就是 3 个 元素可 
能 排成的 所有次 序了。 也就 是说， n(3)  =  3x2xl  =  6。 

接 下来考 虑一下 4 个对象 4、 5、 （：和乃 可以形 成多少 排列。 如 果选择 J 排在 首位， 那 么跟在 4 
之后 的对象 5、 C 和乃可 以按照 6 种次序 中的任 意一种 排列。 类 似地， 如果将 5 排在第 一位， 那么 
剩下的 3、 C 和乃 也能按 6 种次序 排列。 现在一 般模式 应该明 了了。 可以从 4 个元素 中任选 一个排 
在第 一位， 而 对每种 选择， 都可 以按照 n(3)  =  6 种可能 方式中 的任意 一种排 列剩余 元素。 请注 
意， 3 个 对象的 排列数 并不取 决于这 3 个元素 到底是 什么。 由此可 以得出 结论：  4 个 对象的 排列数 
等于 4 乘以 3 个对 象的排 列数。 

一般 而言， 对任意 n^\, 有 n(«  + 1)  =  («  +  l)n ⑻  (4.1) 

也就 是说， 要为 《  +  1 个对象 的排列 计数， 可以从 《  +  1 个 对象中 任选一 个排在 首位。 然后 剩下的 
« 个对象 可以有 n(«) 种排列 方式， 如图 4-4 所示。 在我 们的例 子中， n  +  l  =  4  , 于是有 
n(4)  =  4x11(3)  =  4x6  =  24。 
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首 个对象  其余 《 个对象 


对象 1  - ►  IT ⑻种 顺序 


对象 2  - ►  n ⑻种 顺序 


对象 《+1  - —  n(«) 种顺序 


图 4-4  «  +  1 个对象 的排列 

4.3.1 排 列公式 

等式 (4.1) 就是 2.5 节介 绍的阶 乘函数 定义中 的归纳 步骤。 因此 不用为 n(«) 等于 《! 感到 惊讶。 
我 们可以 通过简 单的归 纳证明 这种等 价性。 

命题* s(«)。 对所有 的《彡1, 有 n ⑻ =«u 

依据。 对„  =  1， Ml) 表示 1 个 对象有 1 种 排列。 我们 在示例 4.2 中 已经看 出这一 点了。 

归纳。 假设 n(«)  =  «!。 那 么要证 明的外 7+1) 就是 n(«  +  i)  =  0  +  i)!。 由等式 (4.1)， 有 

n (” +  1)  =  (” +  1)x11  ⑻ 

而根 据归纳 假设， no)  =  wQ 因此， no  +  i)  =  o  +  i)xwQ 因为 

n\  =  nx{n  —  \)x^*x\ 

所以 一定有 0  +  l)xn!  =  («  +  l)x«x0- l)x … xl 。 而 后者的 积就是 0  +  1)! ， 这就 证明了  5(/7 +  1) 
为真。 

♦ 示例 4.3 

根 据公式 r^«)  =  «!， 可 以得出 结论：  4 个对 象的排 列数是 4!  =  4x3x2x1  =  24 ， 正如 我们在 
上面所 见的。 再举个 例子， 7 个对象 的排列 数就是 7!  =  5040。 

4.3.2 排序要 花多久 

该排列 计数公 式有个 有趣的 用途， 就是 可用来 证明， 要为 《 个元素 排序， 排序 算法至 少会花 
上与 《log« 成正比 的某段 时间， 除非 在排序 过程中 利用到 这些元 素的某 些特殊 属性。 例如 ，在 
后文附 注栏有 关特例 排序算 法的介 绍中， 可以注 意到， 如果 编写只 处理较 小整数 的排序 算法， 
就可 以使运 行时间 比与 《log/7 成正 比的值 更少。 

不过， 如果 某个排 序算法 可以处 理任意 种类的 数据， 那 么只要 这些数 据可以 通过某 种“小 
于” 关 系进行 比较， 该算 法确定 合适次 序的唯 一方式 就是考 量两个 元素中 的一个 是否小 于另一 
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个。 如果 某种排 序算法 对待排 序元素 的唯一 操作是 比较二 者以确 定它们 的相对 次序， 那 么这种 
算法就 可称为 通用排 序算法 ( general-purpose  sorting  algorithm  )0 例如， 第 2 章中 介绍的 选择排 
序 和归并 排序都 是这样 作出决 定的。 即便编 写的程 序是用 来处理 整数数 据的， 也 可以将 其编写 
得 更具一 般性， 只 要将图 2-2 第 (4) 行中 

if  (A[j]  <  A  [small] ) 

这 样的比 较替换 成诸如 

if  (lessThan(A [j] ,  A [small] )) 

这类调 用布尔 值函数 的测试 即可。 

假设有 〃个不 同的元 素有待 排序。 答案 （ 也就 是正确 的排序 次序） 可能是 这些元 素形成 的《! 
种 排列中 的任意 一种。 如果 用于为 任意类 型的元 素排序 的算法 能正常 工作， 它就 一定能 区分这 
d 种不同 的可能 答案。 

考 虑该算 法进行 的第一 次元素 比较， 假设是 

lessThan(X,Y) 

对这 《! 种可 能的排 序次序 而言， I 要 么小于 7, 要么 不小于 7。 因此， 这《! 种可能 的次序 会被划 
分为 两组， 分别是 第一次 测试的 答案为 “是” 的组， 以及 答案为 “否” 的组。 

这两组 中的一 组必须 至少具 有〃! /2 个 成员， 因为如 果两个 组的成 员都不 足《!/2 个， 总的 次序数 
就少于 《!/2+  n!/2 个， 也就 是少于 《! 种 次序。 而 这一次 序数量 的上限 就限制 了我们 刚好有 《! 种 次序。 

现 在考虑 第二个 测试， 假设对 进行比 较的结 果是得 岀如下 结论： 两组可 能的次 序中较 
大 的那组 会剩下 （如 果这 两组一 样大则 任取一 组)。 也就 是说， 至少 会剩余 《!/2 种 次序必 须由算 
法来 区分。 第 二次比 较同样 有两种 可能的 结果， 而且 剩余的 次序中 至少有 一半会 与这些 结果之 
一 相同。 因此， 我们会 发现， 至少有 《!/4 种次序 与前两 次测试 的结果 一致。 

可以重 复这一 论证， 直 到算法 确定正 确的排 序次序 为止。 在每一 步中， 只要 将重点 放在含 
有较 多一致 可能次 序的结 果上， 就至 少会留 下一半 上一步 中得到 的可能 次序。 因此， 可 以看到 
这样一 系列的 测试和 结果： 在第 / 次测 试后， 至少有 《!/2! 种次序 与这些 结果相 一致。 

因 为直到 每个测 试和结 果序列 最多与 一 '个排 序次序 一 '致才 会完成 排序， 所以 在完成 排序前 
所进 行测试 的次数 瘦满足 

«!/2^1  (4.2) 

如果对 (4.2) 式的 两边同 时取以 2 为底的 对数， 就得到 log2«M 彡 0, 也就是 

t^log2(n!) 

我们 将看到 log2(n!) 大约是 《log2 « 。 不过首 先要看 一个分 割可能 次序的 示例。 

♦ 示例 4.4 

考虑 一下图 2-2 所示 的选择 排序算 法在为 给定的 3 个元素 （ a,  c  ) 排序时 是如何 作岀判 定的。 
第一 次比较 发生在 a 和 6 之间， 如图 4-5 中 的顶端 所示， 其 中方框 中表示 了进行 任何测 试前， 6 种 
可能的 次序全 部是一 致的。 在测 试后， abc、 ad 和 cM 这些 次序与 结果为 “是” （即 ) 的情 
况 一致， 而 6ac、 和 cM 这 些次序 与相反 的结果 （也 就是 )  —致。 我们再 次在方 框中展 
示了 每种情 况中的 一致序 （ consistent  order  )。 

在图 2-2 所 示的算 法中， 较小 元素的 下标成 了变量 small 的值。 因此， 接下 来要将 ^:与^ 和办 
中 的较小 者进行 比较。 请 注意， 接 下来要 进行何 种测试 取决于 上一次 测试的 结果。 
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在 进行第 二次判 定后， 3 个元 素中最 小的那 个会被 移动到 数组的 第一个 位置， 而第三 次比较 
则 会确定 剩下的 两个元 素中哪 个更大 。第三 次比较 是该算 法在为 3 个 元素排 序时所 要进行 的最后 
一次 比较。 正如我 们在图 4-5 的 底部看 到的， 有 时候判 定的结 果是确 定的。 例如， 如果已 经得到 
而且 c>6， 那么 c 就是 最小的 元素， 而 且最后 一次对 a 和 6 的比较 会得岀 a 更小的 结论。 


图 4-5 对 3 个 元素进 行选择 排序的 判定树 


在本 7K 例中， 所 有路径 都包含 3 次 判定， 而且 最后至 多存在 一 •种 一 •致 序， 就是 正确的 排序次 
序。 不含一 致序的 两条路 径从未 岀现。 （4.2) 式说 明测试 次数? 一定 至少为 log2 3!， 即 log26 。由 
于 6 大于 22 且小于 23, 所 以可知 log2  6 大于 2 小于 3。 所以， 为 3 个元 素排序 的任意 算法至 少有某 
个结果 序列必 须进行 3 次 测试。 因为选 择排序 只需为 3 个元 素进行 3 次 测试， 所 以处理 3 个元 素时， 
它 最不济 也至少 与其他 算法一 样好。 当然， 随着 元素数 量不断 变多， 选择 排序就 不那么 好了， 
因为 它是种 0(«2) 的排序 算法， 而且 还存在 更佳的 算法， 比 如归并 排序。 

现 在必须 要估算 log2n! 有 多大。 因为 《! 是从 1 到 《这《 个整数 的积， 它肯定 要比从 《/2到《这 

^  +  1 个 整数的 积大。 这 |  +  1 个整数 的积又 至少与 《/2个《/2 的积， 也就是 (《/2)”/2 —样大 。因 
此， log2«!至少是log2((>^/2)n/2)， 即營 (log2  «-log2  2) ， 也就是 

發 (log2«-l) 

对 较大的 《 来说， 这 一 公式 约等于 (《log2  «)/2 。 

更 细致的 分析将 表明常 数因子 1/2 在这 里并非 必要。 也就 是说， log2«! 非 常接近 /dog2«， 
而 非更接 近它的 一半。 


线性 时间的 专用排 序算法 


如果对 排序算 法可以 处 理的输 入加以 限制， 就 可以在 一个步 骤中将 可能的 次 序分为 2 个以 
上的 部分， 因此 会让运 行时间 少于与 nlogn 成正比 的时间 。 下 面讲一 个简单 例子， 如果 输入是 
« 个从 0 到 -1 之间 的不同 整数， 它 就能起 作用。 
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(1)  for  (i  =  0;  i  <  2*n;  i++) 

(2)  count  [i]  =  0; 

(3)  for  (i  =  0;  i  <  n;  i++) 

(4)  count  [a[i]  ]  ++; 

(5)  for  (i  =  0;  i  <  2*n;  i++) 

(6)  if  (count  [i]  >  0) 

(7)  printf  ("0/0d\n"  ,  i) ; 

假 设输入 为 长度为 n 的数组 aQ 在第 (1 ) 行和第 (2) 行 ，我们 将 长度为 的 数组 c oun t 初始化 
为 0。 接着， 在第 (3) 行和第 (4) 行中， 若 X 为第 / 个输 入元素 a  [i] 的值， 则为 x 的计 数加上 1。 在最 
后 3 行代 码中， 要 打印出 count  [i] 为 正的各 个整数 因此， 要打 印那些 在输入 中至少 出现过 
一 次的 元素， 而之前 假设了 输入中 各元素 都是不 同的 ，所 以 这段代 码会将 所有的 输入元 素按照 
从小到 大的顺 序打印 出来。 

分 析该算 法运行 时间很 容易。 第 (1) 行和第 (2) 行 是一个 会迭代 2« 次的 循环， 而且其 循环体 
的运行 时间为 (9(1)。 因此， 该循环 的运行 时间为 (9(«)。 同理， 第 (3) 行和第 (4) 行 的循环 运行时 
间也是 (9(«)， 只不过 它的迭 代次数 是《。 最后， 第 (5) 行至第 ⑺行所 示循环 的循环 体运行 时间为 
0{n) , 而它 会迭代 2« 次。 因此， 这 3 个 循环的 运行时 间均为 00) ， 而整个 排序算 法的运 行时间 
同样是 <9(n)。 请 注意， 如 果给定 的输入 没有为 该算法 进行过 处理， 比 如输入 中含有 超出从 0 到 
2«  - 1 范围的 整数， 那么 上面的 程序 就无法 正确 排序 。 


我们只 是证实 了任意 通用排 序算法 都一定 有某些 能让它 们进行 《log2  « 或更 多次比 较的输 
人。 因此， 任意 通用排 序算法 在最坏 的情况 下肯定 至少要 花上与 nlogn 成 正比的 时间。 其实， 
可以 证明， 这一 点同样 适用于 “平 均的” 输入。 也就 是说， 通用排 序算法 处理所 有输入 平均所 
花的时 间一定 至少与 《10^«成 正比。 因此， 归并 排序基 本上就 是我们 能做的 最佳算 法了， 因为 
它处 理所有 输入都 有着这 样的大 0 运行 时间。 

4.3.3  习题 

(1)  假设 已经为 棒球队 选择了 9 名 队员。 

(a)  可能存 在多少 种击球 次序？ 

(b)  如果 投手必 须最后 击球， 那么可 能有多 少击球 次序？ 

(2)  如 果要为 4 个元素 排序， 那么图 2-2 中的 选择排 序算法 要进行 多少次 比较？ 这 是不是 可以达 到的最 
优 数字？ 给岀该 情况下 判定树 （具 有如图 4-5 所示 样式） 最 上面的 

(3)  2.8 节 介绍的 归并排 序算法 在处理 4 个 元素时 要进行 多少次 比较？ 这 是否为 可达到 的最优 数字？ 给 
岀该 情况下 判定树 （具 有如图 4-5 所示 样式） 最 上面的 3 层。 

(4)  *将《 个值 分配给 n 个项 的数 目多， 还是 n  +  1 个项 的排列 数多？ 请 注意： 对 不同的 n 来说， 答 案可能 
不同。 

(5)  * 将 《  /  2 个值 分配给 《个项 的数目 是 否多于 《 个 项的排 列数？ 

(6) ** 说明 如何在 0{n) 时 间内为 范围在 0 到 n2  -1 之间的 》 个整数 排序。 

4.4 有 序选择 

有 时候我 们会希 望只从 集合中 选出某 些项， 并为它 们排定 顺序。 这里将 4.3 节 中介绍 过的为 
排列 计数 的函数 no)  — 般化为 双参数 的函数 no7,m) ， 用该函 数表示 从《 个项 中选岀 w 项排 定次 
序的方 法数， 不 过对未 选定的 项来说 没 有次序 可言。 因此 n(«)  =  n(«,«)。 
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♦ 示例 4.5 

赛 马比赛 会为前 三名完 成比赛 的赛马 颁奖。 假设有 10 匹马 参赛， 那么冠 亚季军 的排列 
情况共 有多少 种呢？ 

显然， 10 匹 马中的 任意一 匹都可 能赢得 比赛。 如 果给定 了获得 冠军的 马匹， 那么 剩下的 9 
匹马可 以任意 排序。 因此前 两名马 匹的选 择共有 10x9  =  90 种。 对每 种选择 而言， 都 会剩下 8 匹 
赛马， 其中 任意一 匹都可 能获得 季军。 因此， 冠亚 季军的 选择方 式共有 90x8  =  720 种。 图 4-6 
展示 了所有 可能的 选择， 重点突 岀了首 先选择 3 号之 后选择 1 号的 情况。 


1  /  '  除 1 之 外全部 


图 4-6 从 10 项有序 地选岀 3 项 的情况 


4.4.1 无放回 选择的 一 般规则 

现 在来推 导一下 的 公式。 顺 着示例 4.5 的 思路， 可知第 一次选 择时有 《 种选 择。 不管 
第一次 作岀了 怎样的 选择， 都会剩 下《-1 个元 素有待 选择。 因此， 第二次 选择有 《-1 种 不同的 
方式。 前两 次选择 总共有 1) 种 方式。 类 似地， 进 行第三 次选择 时还剩 2 个 未选取 的项， 
所以第 三次选 择共有 2 种 不同的 方式。 因此， 前 三次选 择总共 可以有 n(«-l)(«-2) 种 方式。 

继 续用这 种方式 处理， 直 到作岀 m 次选 择。 每次 选择都 比之前 一次的 选择少 一项。 结论就 
是， 从《个 项中不 放回但 有次序 地选出 w 个项， 总共有 

Yl{n,m)  =  n{n-\){n (/i-m  +  1)  (4.3) 
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种 不同的 方式。 也就 是说， 表达式 (4.3) 是从 《开 始依次 倒数的 m 个整数 的积。 

还 可以将 (4.3) 式写为 n!/(n-m)!。 也就是 

n\  _  n{n  —  1)* •  -  m  +  \){n  -  m){n  -  m  - 1)- •  *(1) 

(n-m)\  (n  —  m)(n  一  m  —  1). •  -(1) 

分 母是从 这 些整数 的积。 而分子 则是从 1 到 《这 些整数 的积。 因为分 子和分 母中后 
«-m 个因子 … ⑴是相 同的， 所以将 这些项 约去， 就得到 

n ! 

- : —— — . n(n-\)" '(n  - m  + 1) 

(n  -  m)\ 

这一 公式与 (4. 3) 式是相 同的， 这样就 证实了  U(n,m)  =  «!/(«- m)!  0 

♦ 示例 4.6 

考虑一 下示例 4.5 中的 情况， 其中 《  =  10 且 m  =  3。 不难 看岀， 11(10, 3)  =  10x9x8  =  720 。 (4.3) 
式表示 n(10,3)  =  10!/7! ， 或 者说是 

10x9x8x7x6x5x4x3x2x1 

7x6x5x4x3x2xl 

从 1 到 7 这 些因数 同时岀 现在分 子和分 母中， 因 此要约 去这些 因数。 结果 就得到 8、 9、 10 这三个 
数字 的积， 就是 10x9x8, 正 如我们 在示例 4.5 中 看到的 那样。 


有放 回选择 和无放 回选择 

示例 4.5 中 考虑的 问题与 4.2 节考虑 的分配 问题只 有细微 的差别 。 如果用 房屋和 颜色来 表示， 
就 可以将 选出前 三名完 成比赛 的赛马 视为将 10 匹马 （颜 色） 分配给 三个完 赛排位 （房 屋） 。唯 
一的区 别是， 将多 所房屋 粉刷成 相同颜 色是可 以的， 而说一 匹赛马 同时获 得冠军 和季军 则很荒 
唐。 因此， 用 10 种 颜色之 一粉刷 3 所房 屋的方 法共有 103 或 者说是 10x10x10 种， 而从 10 匹赛马 
中 选择前 三名 完成比 赛的赛 马则有 10x9x8 种 方法。 

有 时候我 们会将 4.2 节 进行的 这种选 择称为 有放回 选择。 也就 是说， 当为一 所房屋 选择一 
种颜色 （比 如说是 红色） 后， 会 将红色 “ 放回” 可 供选择 的颜色 池中， 然 后可以 继续为 其他房 
屋再 次选择 红色。 

另一 方面， 我们 在示例 4.5 中讨 论的有 序选择 被称为 无放回 选择。 这种情 况下， 如 果赛马 
“硬 面包” 被选作 冠军， 那 么它就 不能被 放回含 有亚军 和季军 的马匹 池了。 类 似地， 如 果赛马 
“秘 书处” 被 选为第 二名， 那么 它也就 不可能 再成为 获得季 军的马 匹了。 


4.4.2  习题 

(1)  从 26 个字母 中选岀 m 个字 母组成 序列， 如 果不允 许同一 字母岀 现一次 以上， 那么有 多少种 不同的 
组合 方式？ 分 别计算 m  =  3 及 m  =  5 的 情况。 

(2)  在 一个有 200 名学 生的班 级中， 我们 希望选 岀一位 会长、 一位副 会长、 一位秘 书和一 位财务 主管。 
选择这 4 位干部 的方 式共有 多 少种？ 

(3)  计算如 下阶乘 之商： （a)  100!/ 97!  (b)  200!/ 195! 。 

(4)  “珠 巩妙 算” （Mastermind) 这个游 戏要求 玩家选 择一个 由一列 4 个珠子 组成的 “密 码”， 每个珠 
子都可 能是红 、绿 、蓝 、黄、 白 和黑这 6 种颜 色中的 一种。 

(a) 总共 有多少 不同的 密码？ 

(b*) 有两 个或多 个珠子 颜色相 同的密 码有多 少种？ 提示： 这 个量是 (a) 小题的 答案与 另一个 易于计 
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算的 量之间 的差。 

(c) 不含 红色珠 子的密 码有多 少种？ 

(d*) 不 含红色 珠子而 且至少 有两个 珠子颜 色相同 的 密码有 多 少种？ 

(5)  * 通过对 n 的归纳 证明， 对 1和《 之间 的任意 m, 有 TJ(n，m)  =  n!/  (fi  -  m)! 。 

(6) *通 过对  的归纳 证明， =  l)(a-2).-(6  +  l) 。 

阶 乘之商 

请 注意， 一般 而言， 只要 6<a,  就是从 6  +  1 到 a 这些 整数 的积。 通 过计算 

ax(a  -l)xatux(b  +  1) 

来计 算阶乘 之商， 要比 分别求 出每个 阶乘的 值然后 相除更 容易， 特 别是在 6 不比 a 小很 多的情 况下。 


4.5 无 序选择 

在 很多情 况下， 我 们希望 计算出 从一组 项中进 行选择 到底有 多少种 方法， 而 其中所 选项的 
顺序倒 是无关 紧要。 按照 4.4 节中赛 马结果 示例的 说法， 我们 可能想 知道前 三名完 成比赛 的赛马 
是哪 三匹， 但不 关心到 底哪匹 马赢得 了哪个 名次。 换句 话说， 就是想 知道从 《 匹赛马 中选出 3 匹 
作 为前三 名完成 比赛的 马匹， 方 法有多 少种。 

♦ 示例 4.7 

再次假 设《  =  10。 我们 从示例 4.5 中 得知， 选择 3 匹 赛马， 假设 说是人 Bmc, 分别作 为冠亚 
季 军的方 式共有 720 种。 然而， 我们 现在不 关心这 3 匹马完 成比赛 的具体 次序， 只是 想知道 J、 5 
和 C 这 3 匹马 以某种 次序获 得了前 三名。 因此， 我们 将通过 6 种 不同的 方式得 到答案 1、 5 和 C 
是 最好的 3 匹赛 马”， 分 别对应 3 匹 马在前 三名中 6 种 不同的 排位。 可知刚 好存在 6 种 方法， 因为给 
3 个项 排序的 方法为 11(3)  =  3!  =  6种。 如果还 有疑问 的话， 可以 参考图 4-7 所 示的这 6 种 方法。 

冠军  亚军  季军 

ABC 
A  C  B 

B  A  C 

B  C  A 

CAB 
C  B  A 

图 4-7  3 匹 马完成 比赛 的 6 种顺序 

对 J、 5 和 C 这 3 匹 马来说 成立的 情况， 对任 意一组 3 匹马 来说都 成立。 在为从 10 匹马 中有序 
选择出 3 匹马的 情况计 数时， 每一个 3 匹 马构成 的组都 会刚好 按照它 们可能 形成的 所有次 序出现 6 
次。 因此， 如果 只需要 计算可 能为前 三名的 3 匹 马的组 合数， 就 还要在 11(10,  3) 的基础 上除以 6。 
因此， 从 10 匹马 中选出 3 匹 作为前 三名的 马共有 720/6  =  120 种不同 组合。 

♦ 示例 4.8 

再来 考虑一 下扑克 牌型的 数量。 在扑 克牌游 戏中， 每名玩 家都会 分到从 52 张牌中 发岀的 5 
张。 这里不 用考虑 分到的 5 张 牌究竟 是什么 顺序， 只 关心拿 到的这 5 张牌到 底是哪 5 张。 要计算 
分到的 5 张牌 可能有 多少种 情况， 可以先 从计算 n(52,5) 开始， 也 就是从 52 个对 象中有 序选择 5 个 
对象 的情况 总数。 这一 数字是 52!/ (52-5)! ， 就是 52!/ 47! ， 或 者说是 50x49x48  =311  875  200 。 
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不过， 就 像示例 4.7 中跑得 最快的 3 匹 马总共 可能以 3!  =  6 种次 序出现 那样， 任 意一组 5 张牌都 
可能以 n(5)  =  5!  =  120 种不同 的次序 岀现。 因此， 要在 不考虑 选择次 序的情 况下考 虑可能 构成的 
牌型， 就 必须用 有序选 择的次 数除以 120。 结果 是共有 311  875  200/120  =  2  598  960 种 不同的 牌型。 

4.5.1 为组 合计数 

现在要 将示例 4.7 和示例 4.8 中介绍 的 情况一 般化， 以得出 在不 考虑选 择顺序 的 情况下 计算从 


«项 中选出 m 项的方 法数的 公式。 这一函 数通常 可写为 


， 并说 成是 选 w” 或是 “从 《 个元 


素 中选取 m 个元素 的组合 数”。 要计算  ， 首先 要计算 n(«,m)  =  «!/(«- m)! , 也 就是从 《 个事 

\m) 

物 中有序 选择岀 m 个的方 法数。 然 后要根 据选岀 的这 m 项来为 这些有 序选 择分组 。因 为这 w 项可 
以有 n(m)  =  m! 种 不同的 次序， 所以这 些分组 中各含 m! 个 成员。 要得 到无序 选择的 数目， 就必 
须要用 有序选 择的数 目除以 m!， 也就是 

 n\ 


n(m)  (n-m)lxm! 

♦ 示例 4.9 

回顾一 下示例 4.8, 它用到 了公式 (4.4)， 其中 《  =  5211， m 
如果将 47! 与 52! 中的后 47 个因数 约去， 并展开 5!， 就可 以写为 


于 是有 


「52) 


(4.4) 


52!(47!x5!) 


52x51x50x49x48 


进行 简化， 就得到 


广52、 


/  5x4x3x2xl 
26x17x10x49x12  =  2  598  960。 


4.5.2  « 选 的递 归定义 

如果 递归地 考虑从 《 项 中选岀 m 项的方 法数， 就 可以得 岀计算 的递归 算法。 


依据。 对任意 《 彡 1 ， 有 


0 


1。 也就 是说， 从《项 中选择 0 项只 有一种 方式。 此外， 


也就 是说， 从 〃项 中选择 《 项的唯 一方法 就是将 它们都 选上。 


’  n、 

1、 

'«-1、 

— 

+ 

!-1 


归纳。 如果 0<m<«， 那么 
可以用 以下两 种方法 中的任 一种。 

(1)  不选取 第一个 元素， 接着从 剩下的 《-1 个元素 中选取 m 个。 
情况下 可能的 选择方 法数。 

(2)  选取 第一个 元素， 然后从 剩下的 《  - 1 个元素 中选取 m  - 1 个元素 ( 


也 就是说 ，如 果想从 《项 中选出 m 项， 


这项表 示的就 是这种 


m-\ 


这项表 示的就 


是这种 情况下 可能的 选择方 法数。 
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顺便提 一句， 尽管 归纳部 分的概 念应该 很明确 （先 从全选 或全不 选的最 简单情 况开始 ，进 
而处理 选择某 些元素 的更复 杂的情 况）， 不 过还是 要谨慎 起见， 说明是 对什么 量进行 归纳。 看待 
这一 归纳的 方式之 一是， 将其 视为对 二者中 较小的 那个与 《 的积进 行完全 归纳。 那么 
当 该积为 0, 而且 归纳是 针对该 积的较 大值进 行时， 就 会发生 依据的 情况。 我们还 必须为 归纳过 
程 核实， 当 0<w<«  时， 《xmin(m，《— m) 总大于 （《-l)xmin(m,«-m  — 1) 以及 
(行- l)xmin(m-l,«-m) 。 这 一验证 过程 将留作 本节的 习题。 

这 种递归 关系通 常是用 帕斯卡 三角形 （Pascal’s triangle)® 表 示的， 如图 4-8 所示， 其 中两条 
边 全部由 1 构成 （表 示依 据）， 而 三角形 中每个 内部条 目都是 它左上 角和右 上角相 邻条目 之和。 

那么 f  1 将作为 第 (《  + 1) 行的第 (m  + 1) 个条目 被 读取。 

\m) 

1 


图 4-8 帕 斯卡三 角形的 前几行 


♦ 示例 4.10 

考 虑一下 《  =  4 且 m  =  2 的情况 Q 我 们在图 4-8 第 5 行的第 3 个 条目处 找到了  的值。 该条目 

(A\ 

为 6， 而很容 易验证 =4!/(2!x2!)  =  24/(2x2)  =  6 。 

通 过公式 (4.4) 或 是上述 递归这 两种方 法计算 计算出 的自然 是相同 的值。 可以 通过诉 

夕 

诸物 理推理 ( physical  reasoning  ) 来证 实这一 点。 两种方 法计算 的都是 从《 项中无 序选择 m 项的 
方 法数， 所以一 定会得 岀相同 的值。 不过， 还可以 通过对 〃的归 纳证明 这两种 方式的 等价性 。在 
这 里将该 证明过 程留作 本节的 习题。 


4.5.3 计算 的算 法的运 行时间 

正如 在示例 4.9 中 所见， 当 我们使 用公式 (4.4) 计算 时， 可以 约去分 母中的 和分 

Vm) 

子中 《! 的后 个因数 ，将” 表示为 

ym) 

( n、 _  nx(n_l)x.“x(n_m  +  l)  (4  5) 

\m  J  mx(m-l)x...xl 

如果 爪比《 小， 那么 使用上 述公式 进行计 算要比 用公式 (4.4) 计算 更快。 大体 上讲， 图 4-9 中的 C 语 
言 代码段 就是用 来完成 这一工 作的。 

第⑴ 行将 c 初始 化为 1， c 就成为 了结果 —— \n)0 第⑵ 行和第 (3) 行会给 c 乘上从 《-m  +  l 到 


① 又称杨 辉三角 或贾宪 三角。 —— 译者注 
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« 的各个 整数。 然后， 第 (4) 行和第 (5) 行会 依次从 c 除去从 2 到 m 的各个 整数。 因此， 图 4-9 就实现 
了 (4.5) 式中的 公式。 

要 计算图 4-9 的运行 时间， 只要注 意到第 (2)  ~  (3) 行及第 (4)  ~  (5) 行 这两个 循环， 每个 循环都 
会迭代 m 次， 而且循 环体的 运行时 间都是 0(1)。 因此， 运行 时间是 0(m)。 


图 4-9 计算 O 勺代码 

在 w 接近 《而《-爪 很 小的情 况下， 可 以交换 m 和 的 角色。 也 就是说 ， 可 以约去 《! 和 m! 的 
因数， 得到咖 +  并将 其除以 (《-m)!。 该方法 给岀了 (4.5) 所 示公式 的另一 种形式 ，即 

〜、— nx(n-l)x.“x(m  +  l)  (46) 

Km  J  (n-m)x(n-  m-l)x000xl 

同样 ，存 在与图 4-9 类似 的代码 段来实 现公式 (4.6)， 而且 所花的 时间为 0(«-m) 。 因为 要定义 

就一定 有《-肌 和 m 不大 于〃， 所 以不管 是哪种 方式， 0(«) 都 是运行 时间的 边界。 此外， 在 m 接 
近 0 或 者接近 《 时， 两种 方法中 更优方 法的运 行时间 都要大 大小于 0(«) 。 

不过， 图 4-9 有 个重大 缺陷。 它先要 计算若 干整数 的积， 然后 再将其 除以相 同数量 的整数 ^ 
因为普 通的计 算机运 算只能 处理有 限大小 的整数 （通 常， 一个 整数最 大可以 达到约 20 亿）， 所以 

图 4-9 第 (3) 行 计算中 间结 果的过 程可能 有溢岀 整 数大小 限制 的 风险。 即 使是在 f  j 的值足 够小， 

Jfl 

可以 在某计 算机中 表示岀 来的情 况下， 也还是 可能出 现这种 情况。 

更好 的方式 是让乘 法和除 法交替 进行。 首先乘 上〃， 然 后除以 m。 乘上 《-1， 再除以 m-1， 
以此 类推。 这 种方法 的问题 在于， 我们没 理由相 信每一 阶段的 计算结 果都是 整数。 例如， 在示 
例 4.9 中， 首先 要乘上 52 并除以 5, 这 个结果 就已然 不是整 数了。 因此， 在 进行任 何计算 前都需 
要转 换为浮 点数。 在 这里将 这一修 改留作 本节的 习题。 


让^"^— 定得 出整数 的公式 

\m) 

要看出 为什么 (4.4)、 （4.5) 和 (4.6) 这几 个式子 中多个 因数的 商一定 是整数 可能不 容易。 唯一 
的简 单论证 就是诉 诸物理 推理。 这些公 式都是 计算从 《 个事物 中选取 m 个的方 法数， 而 这个数 
字一定 是某个 整数。 

不 借助这 些公式 的物理 意义， 而从整 数的属 性来论 证这一 事实， 要难上 很多。 其实 可以通 
过 仔细分 析分子 和分母 中各质 数因子 数来证 明这一 事实。 拿示例 4.9 中的表 达式当 例子。 其中 
分 母中有 5 这个 因数， 而分 子中有 5 个 因数， 由于 这些因 数是连 续的， 可 知其中 必有一 个能被 5 
整除， 而它正 好是中 间的那 个因数 —— 50。 因此， 分 母中的 5 肯 定会被 约去。 


现 在来考 虑计算 f  的递归 算法。 可以 通过图 4-10 所示 的简单 递归函 数来实 现这一 算法。 

Jfl 

图 4-10 中的函 数效率 不高， 因为 它调用 choose 的次 数会呈 指数级 增长。 原因 就在于 当使用 


/= 


l (l c (l 


\ — / \ /  \ /  \ — / \ / 

12  3  4  5 

/ - V  / - 、 / - V  / - V  / - V 
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/* 对 0  <=  m  <=  n， 计算从 n 个元素 中选择 m 个的 方法数 */ 

int  choose (int  n,  int  m) 

{ 

int  n,  m; 

if  (m  <  0  ||  m  >  n)  {/*  错误 的条件  */ 
pr int f ("invalid  input \nn) ; 
return  0; 

} 

else  if  (m  ==  0  I  I  m  ==  n)  /*  依 据情况  */ 
return  1 ; 
else  /*  归纳  * / 

return  (choose(n-l ,  m-1)  +  choose (n-1 ,  m) ) ; 


«作 为首个 参数调 用该函 数时， 往往 会在第 (6) 行用 《-1 作为首 个参数 进行两 次递归 调用。 因此, 
可以 预见， 当《 增加 1 时， 调 用的次 数就会 翻倍。 而且递 归调用 的确切 次数是 很难计 算的。 原因 
在于第 (4) 行和第 (5) 行的依 据情况 不仅适 用于〃  =1 的 情况， 而对 更大的 《， 会提 供值为 0或《的/^ 
下面要 证明一 个简单 但稍显 悲观的 上界。 设 是 当首个 参数为 n 时图 4-10 所 示程序 段的运 
行 时间。 可以直 接证明 r ⑻是 0(2”）。 假设 a 是第 (1) 行到第 (5) 行， 加上第 (6) 行涉及 调用与 返回的 
部分 （不含 递归调 用本身 所花的 时间） 的 总运行 时间。 然后 就可以 通过对 《的 归纳证 明下列 命题。 


图 4-10 计算 的递 归函数 

命题 5(«)。 如果 用第一 个参数 《 以及在 0 和 《 之间 的第二 个参数 m 调用 choose, 那么 该调用 
的运 行时间 T{n) 至多为 a(2”  -1) 。 

依据。 n  =  lo 那么 一定有 m  =  0 或 m  =  l  =  «。 因此， 依据 情况适 用于第 (4) 行和第 (5) 行， 而且 
没有进 行递归 调用。 第⑴ 行到第 (5) 行 的时间 都 包含在 a 中， 因为识 1) 是说 r(l) 至多为 W21  -\)  =  a0 
归纳。 假设 成立， 也就是 有八《) 彡 a(2”- 1)。 要证明 M«  +  l) 成立， 假设要 以《  +  1 为 
首个参 数调用 choose。 那么图 4-10 所示 程序段 花的时 间就是 a 加上第 ⑹行两 次递归 调用的 时间。 
根 据归纳 假设， 每次调 用花费 的时间 至多为 (2”- 1)。 因此， 消 耗的总 时间最 多是： 

a  +  2a(T  -1)  =  a(l  +  2n+1  -2)  =  a(2n+1 -l) 

这一计 算过程 就证明 了  +  成立， 并证明 了归纳 步骤。 

因此 证明了  舍去 常数因 子及低 阶项， 就可 以得出 r (…是 0(2") 的 结论。 

奇怪 的是， 尽 管在第 3 章的分 析中， 很容易 就证明 了运行 时间的 平滑紧 上界， 但 r(«) 上的 
边界 0(2”） 虽平 滑却不 紧凑。 合 适的平 滑紧上 界要稍 小一些 —— 0(2" 7^)。 要证 明这一 事实相 
当 困难， 不过在 这里要 留一个 更为简 单的事 实作为 习题来 证明， 就是图 4-10 所示 程序段 的运行 

时间与 它返回 的值 f  1 成 比例。 要看到 图 4- 1 0 中 的递归 算法， 效率 要比图 4-9 中 的 算法低 得多。 
VmJ 

这是一 个递归 严重不 靠谱的 例子。 

4.5.4  函数 的图像 

Vm) 

对某个 固定的 值《 而言， m 的函数 有着 不少有 意思的 属性。 对 于值比 较大的 《来说 ，如 


12  3  4  5  6 

/ — '  / — '  / — '  / — 、 / — '  / — ' 
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图 4-11 所示， 其图像 为一条 钟形的 曲线。 我们很 容易看 出函数 图像是 关于中 点《/2 所在 轴线对 

称的， 运 用声明 ] 的公式 (4.句很 容易证 实这一 点。 
ym  J  \n-mj 

最大 高度处 于中心 位置， 也就是  ， 大约是 o 例如， 若《  =  10， 这 一 •公式 

U/2J 

可 以得出 258.37， 而  =252。 

该 曲线的 “ 厚部” 是 中点两 边各约 ▲ 的 范围。 例如， 如果 《  =  10  000 ， 那么 对处在 4900 和 5100 
之间的 m， PQQ( ^就 接近最 大值。 而对这 个范围 之外的 m 来说， 的值 会下降 得特别 迅速。 

\  m  )  V  m  ) 


\fn 


4.5.5 二项 式系数 

函数 除 了可以 用来计 数外， 还 能提供 二项式 系数。 在展开 二项式 的乘方 （比如 (x+v)M  ) 
\m) 

时， 就会看 到这些 数字。 

在展开 (X  +  J0" 时， 会得到 个项， 其 中每一 项都是 这样 的形式 （ m 是 0 到 〃之间 的某 
个整 数)。 也就 是说， 对每 个因式 x  +  _y， 都 可能从 x 和;; 中任选 其一作 为某个 特定项 的因子 。展 
开式中 xmyn-m 的系 数是由 m 个 X 和其余 《  +  m 个 y 组成 的项的 数量。 

♦ 示例 4.1 1 

考 虑一下 «  =  4 的 情况， 也就 是看看 (x  +  _y)(x  +  _y)(x  +  y)(x  +  y) 的积。 

总共有 16 项， 其 中只有 1 项是 //  (也 就是 x4  )。 如果从 4 个 因式中 都选出 X， 就能得 到这一 
项。 另一 方面， 有 4 项是 x3;；， 对 应的情 况是从 4 个因 式的任 意一个 中选出 ;；， 再 从其余 3 个因式 
中选岀 X。 对 称地， 有 1 项是 〆 ， 有 4 项是 X〆。 

那 么有多 少项是 呢？ 如 果从两 个因式 中选取 JC 并从其 余两个 中选取 y， 就 能得到 这样一 
项。 因此， 必须要 计算从 4 个因式 中选择 两个因 子的方 法数。 因为选 择两个 因子的 顺序是 不产生 

影 响的， 所以 这个数 字就是 |^  =  4!/(2!x2!)  =  24/4  =  6。 因此， 有 设 页是 x2/。 完整 的展开 式就是 

(x  +  y)4  =  x4  +  4x3y  +  6x2  y2  +  4xy3  +  y4 

请 注意等 式右侧 各项的 系数， （1,  4,  6,  4,  1)， 正好 就是图 4-8 中帕 斯卡三 角形的 一行。 我 们会看 
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到， 这并非 巧合。 

示例 4.11 中用 于计算 X2/ 系数的 概念可 以推广 开来。 （x+ # 展开式 中的项 的 系数为 
原因 在于， 只 要从〆 h 因式 中选岀 m 个 x 并选岀 w 个 y, 就可 以得到 这一项 。从 《 

个因式 中选岀 m 个因 子的方 式有 种。 


在 二项式 系数和 


函数 之间还 有一种 有趣的 关系。 我们已 经看出 


(^+j)"=Z 

m=0、’ 

令 x  =  7  =  l， 那么有(1  +外=2”。1和3；的所有乘方都是1， 所以上 述等式 就成了 

n  f 

2"=Z 

m=0  \ 

换句 话说， •某个 特定的 《 而言， 所有 二项式 系数的 和就是 2”。 特 别要说 的是， 每 个系数 "都 

VmJ 

小于 2”。 图 4-11 就暗 示了， 对接近 《/2 的 m 来说， 和 2H 特别 接近。 由 于在图 4-11 中 曲线下 

VmJ 

方的区 域表示 2” ， 因此 能看出 为什么 只有接 近中点 的一些 值会比 较大。 

4.5.6  习题 


(1)  计算以 下各值 : ⑻ 〔;) ； ⑻ 〔;) ； (c) 〔力 ； (d) 〔;;)  c 

(2)  从 26 个小 写字母 中选岀 5 个不 同字母 的方法 共有多 少种? 

(3)  如下系 数各为 多少？ 


(a)  (x  +  v)7 的展 开式中 jc374 的 系数； 

(b)  (x  +  yf 的展 开式中 x5/ 的系数 。 

(4)  * 在1^1  Security 公司， 计算 机密码 必须由 4 位数字 （ 10 选 4) 和 6 个字母 （  52 选 6  ) 组成， 字 母和数 
字 都可以 重复。 总 共可能 有多少 种不同 的密码 组合？ 提示： 首先考 虑选择 4 个 存放数 字的位 置共有 


多少种 方法。 


(5)  *  5 个 字母组 成的双 元音序 列有多 少种？ 

(6)  重新 编写图 4-9 所示 的程序 片段， 从 而利用 n-m 小于 n 的情 况。 

⑺ 重新 编写图 4-9 所示 的程序 片段， 并 将其转 换成浮 点数乘 除交替 的算法 


(8) 证明： 如果 ， 那么 


⑻借助 的 含义。 

(b) 利用 (4.4)式。 

(9)  * 通过对 n 的归 纳， 证明 ^  ] 的递 归定义 正确地 定义了  等于 «!/((« -m)!xm!) 

{ml  {ml 


(10)  ** 通过对 n 的归纳 ，证 明图 4-10 中递 归函数 choose  (n,m) 的运 行时间 最多是 4  W  j ，其中 c 为某个 常数。 
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(11)  *  证 明：当 0<m<w  时， nxmm{m,n  -  m) 总 是大于 （n  — l)xmin(m，n-m— 1) 和 (n-l)x 
min(m  0 

4.6 相同项 的次序 

在本 节中， 要处 理的是 这样一 些选择 问题， 其 中含有 一些相 同项， 但 不同项 出现的 次序很 重要。 
而在接 下来的 4.7 节中， 则要 解决一 类类似 的选择 问题， 即有 一些相 同项， 而且 项的次 序无关 紧要。 

♦ 示例 4.12 

构词 （ anagram  ) 猜谜游 戏会给 岀一列 字母， 让玩家 重新排 列字母 以构成 单词。 如果 拥有含 
规范 单词的 字典， 并能 生成所 有可能 的字母 序列， 就可 以通过 计算机 解决该 问题。 第 10 章会介 
绍 判定给 定字母 序列是 否处于 字典中 的有效 方法。 不过 现在要 考虑的 是组合 问题， 可能 首先要 
确 定有多 少单词 需要用 字典验 证其确 实存在 。 

对有 些构词 来说， 计数很 简单。 假设有 abenst  6 个 字母， 可 能会有 n(6)  =  6!  =  720 种不同 
的 次序， 其中之 一便是 absent, 也 就是该 谜题的 “解 答”。 

不过， 构词游 戏通常 会含有 重复的 字母。 考虑一 下谜题 eilltt。 这些字 母就不 能构成 720 
种 不同的 序列。 例如， 交换两 个字母 t 的位 置似 乎并不 能让单 词发生 变化。 

假设 对两个 t 和两个 1 加以标 记以区 分这些 字母， 分别将 其记为 q、 t2、 、和12。 被 标记的 
字母 可能有 720 种 次序。 然而， 这些标 记过的 1 仅在位 置上有 区别， 诸如 
就 并不是 真的有 区别。 因 为所有 720 种次 序可以 平分为 两组， 这两组 的区别 只在于 1 的下标 ，所 
以可以 证明： 如果 将字母 串的数 量除以 2, 这些 1 其实 都是相 同的。 

类 似地， 在字符 串中只 有字母 t 带标 记时， 可以 将只有 t 的下标 不同的 字符串 配对。 例如， 
liqtje 和 lit/Je 就是一 对。 因此， 如果 再将数 目除以 2, 就可以 得到将 t 和 1 的标记 删除后 
不同构 词串的 数量。 该 数字为 360/2=1 80。 即使用 eilltt 共有 180 种不同 的构词 方法。 

我们可 以将图 4-12 中的概 念一般 化为有 《个 项而且 这些项 被分为 衫且的 情形。 各组中 的成员 
都是相 同的， 而 不同组 的成员 则是不 同的。 在这 里假设 ％是 第这且 中的成 员项， 其中 /  =  1，2,—彳。 

♦ 示例 4.13 

重新考 虑示例 4.12 中用 eilltt 构词的 问题。 其 中共有 6 项， 也就是 说《  =  6。 而分组 的数量 
k 为 4, 因为有 4 个 不同的 字母。 这 4 组中 有两组 含有一 个成员 （e*i)， 而另 两组则 含两个 成员。 
因 it 匕可以 取 4  =i2  =\  ,  i3  =/4=2。 

如果 为这些 项加上 标记， 以使 同一组 中的成 员有所 不同， 那 么会有 《!种 不同的 次序。 不过， 
若第一 组中有 ^个 成员， 那 么这些 标记过 的项可 能会以 V 种不同 的次序 出现。 因此， 在 从第一 
组 的项上 移除标 记时， 我们 要将这 些次序 分成大 小同为 V 的 集合。 因 此必须 将次序 数除以 /山 
从而得 到从第 1 组删 除标 记后的 次 序数。 

类 似地， 依 次从各 组中删 除标记 需要将 不同次 序的数 量除以 4!、 除以 /3!， 等等。 对 那些值 
为 1 的 //! 来说， 就 是除以 1!  =  1， 因此没 有任何 影响。 不过， 对那些 所含项 数大于 1 的分组 来说， 
我们 必须除 以分组 大小的 阶乘， 这就 是示例 4.12 中的 情况。 有两组 中包含 1 个 以上的 元素， 而每 
组的大 小都是 2, 所以就 要除以 2! 两次。 可以 通过对 A 的归 纳证 明该一 般规 则。 

命题 货幻。 如果有 《 个项， 并 且分别 被分为 大小为 ^、 &、•••、 4 的 &个 组， 同 一组中 的项是 
相 同的， 而不同 组中的 项是不 同的， 那么这 《 个项 能形成 的不同 次序的 数目为 
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依据。 如果 （  =  1， 那么只 有一组 无区别 的项， 不管 〃有多 大都只 有一种 次序。 如果 4  =  1， 
那么 A —定为 而 (4.7) 式就 变成了 《!/«! ， 也就是 1。 因此， 对 1) 成立。 

归纳。 假设 ^a) 为真， 并 考虑有 & +1 个分 组时的 情况。 设 最后一 组中有 爪=4+1个 成员。 

这些 项将会 岀现在 m 个位 置， 而且 可以有 种不 同的方 式来选 择这些 位置。 一旦 选定了 m 个位 

ym) 

置， 把 最后一 组中的 哪一项 放在这 些位置 都没关 系了， 因 为这些 项都是 没有区 别的。 

在 为最后 一组选 择了位 置后， 还剩 个位 置来容 纳其余 个组。 归 纳假设 适用， 并且表 


明最 后一组 的每种 位置选 择都对 应着其 余位置 中其余 元素的 种不同 次序。 该式 
与 (4.7) 式相比 ，只 是将 (4.7) 式中 《的 位置替 换成了  n-m  , 因为只 剩 《 -m 项有待 放置了 。因 此左 + 1 


组项 的次序 总数为 


如果将 (4.8) 中的 


nu! 

替换成 等价的 ， 就得到 
n\  (n-m)\ 


(4.8) 


(4-9) 


(n-m)\m  \  nj=1  心! 

可以从 (4.8) 式 的分子 和分母 中约去 (n-m)!。 此外， 请记住 w 是 4+1, 是第 A  +  1 组 中的成 员的数 
目。 因此可 得到次 序数为 


n\ 


这正是 5X&  +  1) 所 给岀的 式子。 


♦ 示例 4.14 

一 '位探 险家带 了两个 星期的 口粮， 其 中包括 4 罐金 枪鱼、 7 罐午餐 肉以及 3 罐黄 ii 罐头。 如果 
他 每天打 开一罐 罐头， 那么他 消耗这 些口粮 的次序 共有多 少种？ 这里的 14 项分 成了分 别具有 4、 7 
和 3 个相 同项的 3 组。 按照 (4.7) 式， 其中 "=14， k  =  3  ,  i,  =4  ,  i2  =7  ,  z_3  =  3 。 因 此他消 耗口粮 
的次 序数为 

14! 

4!x7!x3! 

先从分 母中的 7! 开始， 可以约 去分子 14! 中最后 ^ 个 因数。 因此 就得到 

14x13x12x11x10x9x8 

4x3x2xlx3x2xl 

继续 约去分 子和分 母中的 因数， 就可 以得到 结果为 120  120。 也就 是说， 消 耗这些 口粮的 方法有 
逾 10 万种。 可惜 每一种 听起来 都让人 没什么 胃口。 


习题 

⑴计 算以 下单词 的字母 构词的 数量： ⑻ error;  (b)  street;  (c)  allele;  (d)Mississippi0 
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(2)  将下 列水果 排成一 线共有 多少种 方法？ 

(a)  3 个 苹果、 4 个梨和 5 根 香蕉； 

(b)  2 个 苹果、 6 个梨、 3 根 香蕉和 2 颗 李子。 

(3) * 将 白王、 黑王、 2 个白 骑士和 1 个黑车 摆在棋 盘上， 共有 多少种 摆法？ 

(4)  *  100 个 人参与 到一场 彩票游 戏中。 其中一 人可赢 得千元 大奖， 还有 5 人可 以得到 50 美元储 蓄基金 
的安 慰奖。 那么总 共可能 有多少 种不同 的获奖 结果？ 

(5)  写一个 简单的 公式， 用来计 算放置 n 对两两 相等的 2n 个对 象的次 序数。 

4.7 将 对象分 装入箱 

我们 要介绍 的下一 类计数 问题涉 及对盛 装若干 对象之 容器的 选择。 这些对 象可能 相同， 也 
可能 不同， 不 过容器 是有区 别的。 我们 必须计 算这些 装满容 器的方 法数。 

♦ 示例 4.15 

有 凯西、 彼得 和苏姗 3 个 孩子， 我 们要将 4 个苹 果分给 他们， 而不 把苹果 切开。 那么 共有多 
少 种分配 苹果的 方式？ 

这 里的方 法数比 较少， 因 此可以 直接将 其枚举 出来。 凯 西可能 得到从 0 至 4 个 不等的 苹果， 
而 不管余 下几个 苹果， 分给彼 得和苏 姗的方 式都只 有少数 几种。 如果设 幻 表示凯 西得到 / 
个 苹果、 彼 得得到 /个苹 果而苏 姗得到 &个 苹果的 情况， 那么图 4-12 就展示 了全部 15 种可能 的分配 
方式。 每一行 对应着 分给凯 西的苹 果数。 


图 4-12 把 4 个苹 果分给 3 个孩 子共有 15 种方式 

为将 相同对 象分装 入箱计 数的方 法有个 诀窍。 假设用 4 个字母 A 来表示 4 个 苹果， 并用两 个* 
来 分隔属 于不同 孩子的 苹果。 两个 * 之间的 A 的数量 就表示 彼得分 到的苹 果数， 而第二 个* 之后 
的 A 的数量 则表示 属于苏 姗的苹 果数。 例如， AA*A*A 表示 （2,1,1  ) 的分配 方式， 其中凯 西分到 
2 个 苹果， 其余两 个孩子 各分到 1 个。 而序列 AAA*A* 则表示 （3,1，0) 的分配 方式， 其中 凯西得 
到 3 个， 彼 得得到 1 个， 苏姗 一个都 没有。 

因此， 每种分 发苹果 的方式 都与由 4 个 A 和 2个* 组成 的唯一 字符串 相关。 那么 有多少 这样的 
字符 串呢？ 考虑一 下组成 这种字 符串的 6 个位置 。其 中任选 4 个 位置用 来存放 A， 另 外两个 位置用 
来存放 *。 正如 我们在 4.5 节 中了解 到的， 从 6 项 中选择 4 项共有 (彳） 种 方法。 因为 (彳）=15， 所以 
又 一次得 岀了将 4 个苹 果分给 3 个孩 子的方 法共有 1 5 种的 结论。 

4.7.1 装箱问 题的一 般规则 

我 们可以 按照下 列方式 将示例 4.15 介绍的 问题一 般化。 假设给 定„个 容器， 它们 对应示 例中的 3 
个孩子 同时假 设要将 m 个相 同的对 象随意 地放进 这些容 器中。 那么有 多少种 分装人 箱的方 式呢？ 
这里 可以再 次考虑 A** 组 成的字 符串。 A 表示 对象， 而* 表示容 器间的 边界。 如果有 《 个对 
象， 就有 而 如果有 m 个容 器， 那么 就需要 爪-1个*来 表示分 隔不同 容器的 边界。 因此， 
字 符串的 长度为 n  +  w-1。 
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我们可 以从这 些位置 中任选 《 个存放 A ， 剩下的 就是存 放* 的。 因 此共有 P  +  种由 A 和 

y  n  ) 

*组 成的字 符串， 那 么将对 象分装 入箱的 方式也 有这么 多种。 在示例 4.15 中， 有《  =  4 且 w  =  3， 

所 以就可 以得到 共有卜 +  "7  =  种分配 方式的 结论。 

y  n  J 

♦ 示例 4.16 

在掷 骰子游 戏中， 要掷岀 3 个 殷子， 其 中每个 骰子的 6 个面 上都标 记了从 1 到 6 这 6 个数字 。玩 
家 可以为 某个数 字赌上 1 美元。 如 果这个 数字不 出现， 钱就输 掉了。 如 果该数 字出现 一次或 多次， 
那么该 玩家就 可以得 到与该 数字岀 现次数 等额的 美元。 

我 们可能 想要为 “ 结果” 计数， 不过一 开始在 “ 结果” 是什 么的问 题上可 能有些 疑问。 
如果将 骰子不 同的面 涂上不 同颜色 以方便 区别， 就可将 其视为 4.2 节 中那样 的计数 问题， 其中 3 
颗骰子 中的每 一颗都 能分配 6 个数 字中的 一个。 我们 知道， 进行这 样的分 配共有 63  =  216 种 方式。 

不过， 骰子 通常是 没有区 别的， 这些 数字出 现的顺 序也是 无关紧 要的， 只有 每个数 字出现 
的次 数决定 了哪个 玩家会 赢钱， 会赢多 少钱。 例如， 掷 骰子的 结果可 能是有 两颗是 1， 而 第三颗 
是 6。 而 6 可能出 现在第 1 颗、 第 2 颗或第 3 颗骰 子上， 不过 出现在 哪颗锻 子上都 是没关 系的。 

因此， 可 以把这 一问题 视为将 相同对 象分装 入箱的 问题。 “ 容器” 就是 1 到 6 这几 个数字 ，而 
“ 对象” 就是 3 个 骰子。 一颗骰 子会被 “ 分装” 到 对应该 骰子掷 岀数字 的那个 容器。 因此， 掷骰 

子游戏 总共有 f6  +  3_1l  =  f8]  =  56 种 不同的 结果。 

4.7.2 分装 有区别 的对象 

我们可 以将之 前的公 式扩展 一下， 以便 处理将 可分为 &类的 《 个对 象装人 m 个容 器的 问题。 
同一 类中的 对象是 没有区 别的， 但不同 类的对 象是不 同的。 这里 用符号 a, 表示第 / 类中的 成员。 
因此可 以构成 由下列 对象组 成的字 符串。 

(1)  对 每个类 /， 与类 中所含 成员数 量等量 的④； 

(2)  用 来表示 m 个容 器间 的 边界的 m  - 1 个 * 。 

因此 这些字 符串的 长度是 《  +  m-l ， 请 注意， 这些 * 构成 了第奸 1 个类， 而该 类包含 了爪个 成员。 
我们在 4.6 节 中已经 了解过 如何为 这样的 字符串 计数。 字 符串的 个数为 

(n  +  m-l)\ 

(m-l)!n;=1V 

其中 ~ 表示 的是箄 / 类中 的成 员数。 

♦ 示例 4.17 

假设 有三个 苹果、 两个 梨和一 根香蕉 要分给 凯西、 彼得和 苏姗。 那么 “ 容器” 的 数量， 也就是 
? 亥子 的数量 m  =  3  o 共有 众 =  3 组， 分另1 J 有 A  =  3 、 i2  =  2 和， .3  =  1 个 成员。 因为总 共有 6 个 Xf 象， 所以 
n=6, 因此 该问题 中的字 符串的 长度为 《  +  m-l  =  8 。 这些字 符串由 3 个表示 苹果的 A 、 两个表 示梨的 
P、 一 个表示 香蕉的 B， 以及两 个表示 边界的 * 组成。 因此， 由 分发方 法数的 计算公 式可得 到共有 

— -1)!  =  8!  =1680 
(m-\)\ix\i2\i,\  2!3!2!1! 
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种将这 些水果 分发给 凯西、 彼得和 苏姗的 方式。 


计 数问题 的对比 

在 本节及 之前的 4.1 到 4.5 节中， 我 们已经 考虑了 6 种不同 的计数 问题。 每种问 题都可 视作为 
特 定的位 置分配 对象。 例如， 4.2 节介绍 的分配 问题可 以视为 给定了 n 个位置 （对应 房屋） ，以 
及 不限量 的具有 A 个不 同类型 （对应 颜色） 之一的 对象。 我们可 以顺着 3 个方 向为这 些问题 分类。 

(1)  它们是 否会放 置所有 给定的 对象？ 

(2)  分配对 象的次 序是否 重要？ 

(3)  所 有对象 都是不 同的， 还是说 某些对 象没有 区别？ 

下表 表示了 之 前各节 提到的 问题 之间的 区别。 


-Hj 

典 型问题 

是 否必须 使用所 有对象 

次序是 否重要 

是否 有相同 的对象 

4.2 

粉 刷房屋 

否 

是 

否 

4.3 

排序 

是 

是 

否 

4.4 

赛 马比赛 

否 

是 

否 

4.5 

扑 克牌型 

否 

否 

是 

4.6 

构词 

是 

是 

是 

4.7 

给孩子 分苹果 

是 

否 

是 

4.2 节和 4.4 节中的 问题在 上表中 体现不 出什么 区别。 它们的 区别在 于是否 放回， 正 如之前 
4.4.1 节 附注栏 “ 有放回 选择和 无放回 选择” 中 讨论的 那样。 也就 是说， 在 4.2 节中， 每 种“颜 
色” 都是不 限量供 应的， 可以 多次选 择同一 颜色。 而在 4.4 节中， 一匹被 选定的 “ 赛马” 不能 
在同一 系列的 选择中 再被选 中了。 


4.7.3 习题 

(1)  进行 下列分 配任务 分别有 多少种 方法？ 

⑻ 6 个苹 果分给 4 个 孩子； 

(b)  4 个苹 果分给 6 个 孩子； 

(c)  6 个 苹果和 3 个 梨分给 5 个 孩子； 

(d)  2 个 苹果、 5 个梨和 6 根香 蕉分给 3 个 孩子。 

(2)  下 列情况 分别有 多少种 结果？ 

(a)  掷 4 颗无 区别的 骰子； 

(b)  掷 5 颗无 区别的 骰子。 

(3)  *将7 个苹 果分给 3 个 孩子， 并 保证每 个孩子 至少得 到一个 苹果， 共 有多少 种分发 方法？ 

(4)  * 假 设从国 际象棋 棋盘的 左下角 开始向 右上角 移动， 每次向 上或向 右移动 一格， 完 成这一 移动的 

方式 共有多 少种？ 

(5) * 将习题 (4) 一 般化。 如果有 一个由 《个方 格乘上 m 个方格 组成的 矩形， 并可以 从一个 方格向 上或向 

右 移动到 另一个 方格， 那么从 左下角 移动到 右上角 总共有 多少种 方法？ 

4.8 计 数规则 的组合 

组合这 一主题 能带来 无数的 挑战， 而且很 少像本 章之前 所讨论 的那样 简单。 不过， 我们目 
前所 了解到 的规则 都是最 基础， 它们 都很有 价值， 能 以各种 方式结 合起来 为更加 复杂的 结构计 
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数。 在本 节中， 我们将 了解到 3 种实用 的计数 “诀 窍”。 

(1)  将计数 表示为 一系列 选择； 

(2)  将计 数表示 为计数 的差； 

(3)  将计数 表示为 子情况 的计数 之和。 

4.8.1 将计 数分解 为一系 列选择 

在 为某类 分配计 数时， 有 一种实 用的方 法可以 采用， 就 是将这 些待计 数的事 物描述 为一系 
列的 选择， 其中 每次选 择都会 细化该 类中某 个特定 成员的 描述。 在本 节中， 我们 会给岀 一系列 
表示 某些可 能性的 示例。 

♦ 示例 4.18 

考虑一 下扑克 牌型中 “对 子”  (one-pair) 的 数量。 该牌 型由一 •具有 某个秩 ® 的牌， 加上 3 张具 
有不同 秩 （ 而且与 之前一 对的秩 不同） 的牌 组成。 我们可 以通过 如下步 骤描述 所有的 “ 对子” 牌型。 

(1)  为成对 的牌选 择秩； 

(2)  从其余 12 种秩中 为其余 3 张 牌选择 3 个不同 的秩； 

(3)  为 成对的 牌选择 花色； 

(4)  为其他 3 张 牌选择 花色。 

如 果将这 些数字 相乘， 将得到 “ 对子” 牌型的 数量。 请 注意， 牌型中 各张牌 岀现的 顺序是 
无关紧 要的， 正 如之前 在示例 4.8 中讨论 过的， 而且 我们从 未尝试 过指定 次序。 

现在， 要 依次接 受这些 因素。 为成对 的那两 张牌选 择秩的 方式有 13 种。 不管选 择了哪 个秩， 
都 会余下 12 种。 接下来 必须从 这些秩 中选择 3 个组成 剩下的 牌型。 就像 4.5 节 中讨论 过的， 这也 

_  ( 12、 

是一种 次序不 重要的 选择， 执行 这种选 择的方 式共有  =220 种。 

I3  J 

现 在必须 为这对 牌选择 花色。 共有 4 种 花色， 而 且我们 必须从 中选择 两种。 这 次又是 无序的 

选择， 可以有 =  6 种 方式。 最后， 为 剩下的 3 张 牌选择 花色。 每张 牌都有 4 种花色 可选， 所以 

又是 4.2 节 中那样 的分配 问题， 进行分 配的方 式共有 43  =  64 种。 

因此， “ 对子” 牌 型的总 数量为 13x220x6x64  =  1  098  240 种， 这一 数字在 2  598  960 种扑克 
牌型 中占了 40% 以上。 


4.8.2 用 计数的 差来计 算计数 


另一种 实用技 巧是， 将要计 数的内 容表示 为某个 更具一 般性的 排列类 c 与 c 中不 满足 计数条 
件的 那些事 物之间 的差。 

♦ 示例 4.19 

还有很 多种扑 克牌型 （两 对、 三条、 铁支和 葫芦） 可以 按照类 似示例 4.18 的方 法计数 。不 
过， 还 有一些 其他牌 型需要 不同的 方法来 计数。 

先 来考虑 一下同 花顺的 情况， 也就是 5 张花 色相同 （ 同花） 而且 秩连续 （ 顺子） 的牌型 。 首 
先， 每 个顺子 都是从 A 到 10 这 10 个秩 之一开 始的。 也就 是说， 顺子 可能是 A-2-3-4-5,  2-3-4-5-6, 
3-4-5-6-7, 等等， 最大的 可能是 10-J-Q-K-A。 一旦秩 确定， 就只需 要指定 一种花 色来指 定该同 


① 13 个秩 分别为 A、 K、 Q、 J, 以及 2 到 10。 


4.8 计 数规则 的组合  149 


花 顺了。 因此， 为 同花顺 计数包 含以下 两步： 

(1)  选择 顺子的 最低秩 （ 10 种选 择）； 

(2)  选 择花色 （4 种选 择)。 

因此， 总共有 10x4  =  40 种 同花顺 牌型。 

现在 来为顺 子牌型 计数， 也 就是那 些秩连 续但又 不是同 花顺的 牌型。 先要计 算所有 具有连 
续秩的 牌型的 数量， 不 考虑它 们的花 色是否 相同， 然后 再减去 40 种 同花顺 牌型。 要为秩 连续的 
牌型 计数， 可 以按以 下两步 进行： 

(1)  选择最 低的秩 （ 10 种选 择）； 

(2)  为每个 秩指定 一种花 色 （ 如 4.2 节 介绍的 ，有 45  =  1024 种选 择)。 

因此， 顺子和 同花顺 牌型的 总数是 10x1  024  =  10  240 种。 减去 40 种同 花顺牌 型后， 就得岀 
顺子牌 型共有 1 0  240  -  40  =  1 0  200 种。 

接 下来， 考虑一 下同花 牌型的 数目。 这里 还是要 先将同 花顺牌 型考虑 在内， 然后再 减去那 
40 种 同花顺 牌型。 可以通 过如下 方式定 义同花 牌型。 

(1)  选 择花色 （4 种选 择）； 

( 13^1 

(2)  从 13 个秩 中任选 5 个， 如 4.5 节介 绍的， 共有  =1  287 种 方式。 

V  ^  / 

于是可 以得出 同花牌 型共有 4x1  287-40  =  5  108 种。 • 

4.8.3 将计 数表示 为子情 况的和 

在 面对一 些很难 直接解 决的问 题时， 就 要用到 第三种 “诀窍 ”了。 可 以把为 某个类 c 计数 
的问 题分解 成两个 或多个 单独的 问题， 而类 c 中的 各个 成员刚 好都能 被子问 题之一 涵盖。 

♦ 示例 4.20 

假 设要抛 10 次 硬币， 那么 8 个或 8 个以上 硬币人 头面朝 上的序 列有多 少种？ 如果 想知道 有多少 

，10、 


序列 刚好有 8 个硬币 人头面 朝上， 可以用 4.5 节 介绍的 方法来 解决。 共有 


45 种这样 的序列 ( 


要 解决为 8 个或 8 个 以上? 更 币人头 面朝上 的序列 计数的 问题， 可 以将其 分解为 3 个子 问题， 即分别 
为 刚好有 8 个硬币 人头面 朝上、 刚好有 9 个 硬币人 头面朝 上以及 l(Kh 硬币全 部人头 面朝上 的情况 计数。 

’10、 


我 们已经 解决了 第一个 问题。 而 9 个 硬币人 头面朝 上的序 列共有 
^10' 


9 


10 种， 10 个硬 币全是 人头面 


朝 上的序 列共有 


10 


=1 种。 因此， 有 8 个或 8 个 以上硬 币人头 面朝上 的序歹 I 供有 45  + 10  + 1  =  56 种。 


♦ 示例 4.21 

再来 考虑一 下示例 4.16 中 解决的 为掷骰 子游戏 的结果 计数的 问题。 另 一种方 法就是 根据所 
岀现 的不同 数字是 3 个、 2 个或 1 个， 将该问 题分成 3 个子 问题。 

(a) 可以用 4.5 节介 绍的技 巧计算 3 个 数字皆 不同的 结果的 数量。 也就 是从一 颗骰子 6 个可能 

「6、 


的数字 中选岀 3 个， 总共有 


20 种 不同的 方法。 


(b) 接着， 要计算 两颗骰 子是一 个数， 而另 一颗是 另一个 数的情 况有多 少种。 岀现两 次的数 
字有 6 种 选择， 每 种情况 下对应 的岀现 一次的 数字有 5 种 选择。 所以 两颗骰 子是一 个数而 另一颗 
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是 另一个 数的结 果共有 6x5  =  30 种。 

(c)  3 颗 骰子数 字全相 同的情 况共有 6 种。 

因此， 可 能的结 果共有 20  + 30  + 6  =  56 种， 这 与示例 4.16 中得 到的结 论是一 样的。 

4.8.4  习题 

(1) * 为 以下扑 克牌型 计数： 

(a)  两对; 

(b)  三条； 

(c)  葫芦 （ 三 条加一 对）； 

(d)  铁支 （四 条）。 

请 注意， 在 为某种 牌型计 数时不 要将那 些更佳 的牌型 计算在 内了。 例如， 在情况 (a) 中， 要 确定两 
对是不 同的， 不然就 是拿到 了铁支 牌型， 而且要 保证第 5 张牌和 这两对 的秩不 一样， 否则 就是拿 
到 了葫芦 牌型。 

(2)  * 黑 杰克由 两张牌 组成， 其中 一 ■张是 A， 而另 一 ■张是 10 分牌， 就是 10、 J、 Q 或 K 中的 一 •种。 

(a)  在一摞 52 张扑克 牌中， 有多 少种不 同的黑 杰克？ 

(b)  在黑 杰克游 戏中， 有一 张牌是 暗牌， 而另 一张是 明牌。 因此， 两张牌 的次序 是有影 响的。 在这 
种情 况下， 有多 少种不 同的黑 杰克？ 

(c)  在 皮诺奇 勒牌游 戏中， 只使 用秩为 9、 10、 J、 Q、 K 和 A 的牌各 8 张 （每种 花色各 有两张 同秩的 
牌）， 而 不使用 其他扑 克牌。 假设次 序无关 紧要， 共有多 少种黑 杰克？ 

(3)  “ 什么都 不是” （即 不是 对子或 更好） 的牌型 共有多 少种？ 大家可 能要利 用示例 4.18 和示例 4.19 
的 结果以 及习题 (1) 的 解答。 

(4)  如果 依次抛 12 枚 硬币， 那么下 列情况 各有多 少种？ 

(a)  至少有 9 枚硬币 人头面 朝上； 

(b)  至多有 4 枚硬币 人头面 朝上； 

(c)  有 5 到 7 枚硬币 人头面 朝上； 

(d)  不到 2 枚 或多于 10 枚硬币 人头面 朝上。 

(5)  * 至少 有一个 数字为 1 的掷骰 子结果 共有多 少种？ 

(6)  * 使 用单词 little 的字母 构词， 其 中两个 t 不相邻 的情况 共有多 少种？ 

(7) ** 桥牌 牌型由 52 张扑克 牌中的 13 张 构成， 我 们通常 会通过 “ 分布” 为牌型 分类， 也就 是说， 会按 
照花色 为手牌 分组。 例如， 牌型 4-3-3-3 的分布 表示有 4 张牌 是某种 花色， 而另外 3 种 花色的 牌各有 3 
张。 牌型 5-4-3-1 的 分布表 示各花 色的牌 分别有 5 张、 4 张、 3 张和 1 张。 为 具有如 下分布 的牌型 计数: 
(a)4-3-3-3；  (b)5-4-3-l ；  (c)4-4-3-2；  (d)9-2-2-0。 

4.9 概率 论简介 

概率论 在计算 机科学 领域具 有很多 用途， 其中一 种重要 应用就 是估算 平均输 入或典 型输人 
情况 下的程 序运行 时间。 这种估 算对那 些最坏 情况运 行时间 远大于 平均运 行时间 的算法 来说非 
常 重要。 我 们很快 就会看 到这种 估算的 示例。 

概率的 另一种 用途是 在具有 不确定 性的情 况下设 计制定 决策的 算法。 例如， 可以 使用概 率论， 
设计 根据可 用信息 制定最 佳医疗 诊断的 算法， 或 设计在 未来预 期需求 的基础 上分配 资源的 算法。 

4.9.1  概 率空间 

概率空 间是指 点的有 限集， 这 些点分 别表示 某一实 验的某 种可能 结果。 每个点 X 都与 某个称 
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作 jc 的概 率的正 实数相 关联， 而所 有点对 应概率 的和为 1。 还 有无限 多个点 的概率 空间这 样的说 
法， 不 过这种 概念在 计算机 科学领 域鲜有 应用， 所以这 里不需 要考虑 这些。 

通常， 概率 空间中 的点都 是等可 能的。 除 非特别 声明， 否则可 以假设 概率空 间中若 干点表 
示 的概率 都是相 等的。 因此， 如果 概率空 间中有 《 个点， 则每个 点的概 率都是 1/«。 

♦ 示例 4.22 

图 4- 1 3 所示 为具有 6 个点 的概率 空间。 这 些点分 别被标 记为从 1 到 6 这 6 个 数字中 的一个 ，而 
且可 将该空 间视为 表示掷 一次骰 子这项 “ 实验” 的 结果。 也就 是说， 骰子 6 个面中 某个面 上的数 
字会岀 现在最 上方， 而 每个数 字岀现 的概率 都是均 等的， 即都是 1/6。 


图 4-13 具有 6 个 点的概 率空间 

概率 空间中 这些点 的任意 子集都 可称为 事件。 某个 事件五 的概率 —— 记为 PROB  (幻 —— 就 
是^ 中各 点概率 之和。 如果这 些点都 是等可 能的， 就可 以用五 中点的 数目除 以整个 概率空 间中点 
的数目 来计算 £的 概率。 

4.9.2 概率 的计算 

通常情 况下， 计算某 个事件 的概率 会涉及 组合。 我们 必须计 算事件 中点的 数量， 以 及整个 
概 率空间 中点的 数量。 当点 是等可 能时， 这 两个计 数的比 就是该 事件的 概率。 接 下来要 介绍一 
系列 示例， 展示按 这种方 式计算 概率的 过程。 


无 限的概 率空间 

在 某些情 况下， 可以想 象一个 具有无 数个点 的概率 空间， 其中 任何给 定的点 的概率 都可能 
是无 穷的， 从而只 能将有 限的概 率与某 些点的 集合关 联起来 。 举个 简单的 例子， 下图中 的正方 
形 表示某 个概率 空间， 而该概 率空间 中 的点是 该正方 形所 在平面 上的所 有点。 


可以假 设正方 形中任 何点被 选中的 可能性 都是相 等的， 并 将这种 “ 实验” 视 作往该 正方形 
中投掷 飞镖， 飞 镖飞到 正方形 上任何 位置的 可能性 都是相 同的， 但 肯定不 会飞到 正方形 之外。 
虽然 任何一 点被击 中的概 率都是 无穷的 ，但是 该正方 形中某 个区域 的概率 等于该 区域的 面积与 
整个 正方形 的面积 之比。 因此， 我们 可以计 算某些 事件的 概率。 

例如， 上 图的概 率空间 中 含有一 个椭圆 形组成 的事件 五。 假设 该椭圆 区域的 面积是 整个正 
方形 面积的 29%, 那么 PROB  (五） 就是 0.29。 也就 是说， 如果随 机地向 该正方 形投出 飞镖， 那么 
29% 的情况 下飞镖 会落在 这个椭 圆中。 
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♦ 示例 4.23 

图 4-14 展 示了表 示掷两 颗骰子 的概率 空间。 也就 是说， 进 行的实 验是按 顺序抛 岀两颗 骰子， 
并 观察它 们朝上 那面的 数字。 假 设掷骰 子的过 程是公 平的， 就有 36 个 等可能 的点， 或者 说是实 
验 结果， 所 以每个 点的概 率都是 1/36。 每个 点对应 着每颗 骰子从 6 个 值中任 选其一 的分配 。例 
如， （2,3) 就表示 第一颗 骰子为 2 点， 而 第二颗 骰子为 3 点的 情况。 而 （  3,2  ) 则表 示第一 颗骰子 
是 3, 第 二颗是 2 的 情况。 

被圈岀 来的区 域表示 “ 吃憋” 的 事件， 也就是 两颗骰 子的总 点数为 7 或 11 的 情况。 这 个事件 
共含有 8 个点， 其中 6 个是总 点数为 7 的 情况， 而有两 个是总 点数为 11 的 情况。 投出 “ 吃憋” 情况 
的概 率就是 8/36, 约为 22%。 


♦ 示例 4.24 

再 来计算 一下扑 克牌岀 现对子 牌型的 概率。 我们 在示例 4.8 中已 了解到 总共有 2 598 960 种不 
同 的扑克 牌型。 考虑该 公平处 理扑克 牌型的 实验， 也就 是说， 所有 牌型出 现的可 能性都 相等。 
因此， 该实 验的概 率空间 总共有 2  598  960 个点。 我们还 从示例 4.18 中 得知， 这些 表示牌 型的点 
中有 1  098  240 个 被分类 为对子 牌型。 假设所 有牌型 被处理 的可能 都是均 等的， 那么 “对 子”事 
件的概 率就是 1  098  240/2  598  960， 大约是 42%。 
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♦ 示例 4.25 

在 基诺游 戏中， 会 随机从 1 到 80 这 些数字 中选岀 20 个。 而且 选取这 些数字 之前， 玩家 可以猜 
测一些 数字。 这里 要专门 讲讲这 个玩家 要猜测 5 个 数字的  “5 点游 戏”。 所猜 数字与 选中的 20 个数 
字中有 3 个、 4 个或 5 个吻合 的话， 玩 家就中 奖了， 而 且猜中 的数字 越多， 得到 的奖金 越丰厚 。我 
们要 计算的 是玩家 在该游 戏中正 好猜中 3 个数字 的概率 。正 好猜中 4 个或 5 个 数字的 概率的 计算将 
留作 本节的 习题。 

首先， 合 适的概 率空间 包含了 表示从 1 到 80 中任选 20 个数字 所有可 能情况 的点。 这样 的选择 
总共有 

’80〕_  80! 

、2oJ  _  20160! 

种， 这个数 字奇大 无比， 好在 不需要 把它写 出来。 


结 果 何时是 随 机的？ 

在示例 中已经 假设过 某些实 验具有 “随 机的” 结果， 也 就是说 ， 所有 可能出 现的结 果的可 
能性 都是相 等的。 在 一些情 况下， 这种 假设的 合理性 源自物 理学。 例如， 在投 掷公平 （ 未 加重） 
的骰 子时， 我们 假设在 物理上 不可能 控制骰 子的某 个面比 其他面 更可能 朝上。 这 在实践 中是种 
有效的 假设。 同样， 我们 可以假 设公平 洗牌的 牌堆不 会影响 结果， 而且任 何一张 牌出现 在牌堆 
中 任意 位置的 可能性 都是相 同的。 

在 其他情 况下， 我们 发现一 些貌似 随机的 事物实 际上 根本不 随机 ，只 不过是 某个过 程原则 
上 可预知 但在实 践中不 可 预知的 结果。 例如， 基 诺游戏 中选 出的数 字可能 是由计 算机执 行某个 
特殊 算法生 成的， 而如果 没法接 触到计 算机使 用的这 些秘密 信息， 就不 可能预 测结果 Q 

计算机 生成的 “ 随机” 序列都 是某种 被称为 随机数 生成器 的特殊 算法的 结果。 设计 这样的 
算法 需要一 些专门 的数学 知识， 而这 些知识 超出了 本书的 范畴。 不过， 我 们会介 绍一种 实践中 
相当 好用的 随机数 生成器 —— 线性同 余生 成器。 

指 定常数 b^  \  ,  x0  ^  0  ,  iiamodm>max(a,6,x。）， 便可以 通过使 用公式 

xn+l  =  (axn  +b)modm 

生成一 列数字 Xo,  a， 而 …。 如果 选择的 a、 6、 w 和 邱 很 合适， 那么 得到的 数字序 列就会 显得相 
当 随机， 即便它 们是通 过特定 算法由 “ 种子”  X。 计算得 出的。 

随机 数生成 器生成 的序列 有很 多用途 。 例如， 可以 根据上 述序列 选 取基诺 游戏中 的 开奖号 
码， 用上述 序列中 的每个 数除以 80, 取 余数， 并加上 1， 得到 1 到 80 间 的某个 “随机 ”数。 不断 
这样 处理， 除去 重复的 数字， 直 到选出 20 个 数字。 只要 没人知 道生成 算法和 种子， 这一 游戏就 
可视 为是公 平的。 


现 在要计 数的情 况是从 80 个数字 中选出 20 个， 其中含 有玩家 所选择 5 个数 字中的 3 个， 以及 
玩 家没有 选择的 75 个数 字中的 17 个。 从 5 个数字 中选岀 3 个共有 =  10 种 方式， 而从 剩下的 75 

( 75)  75' 

个数字 中选取 17 个的方 式共有  = ^ 二种。 

^17 )  17158! 

因此， 玩家在 5 个数字 中猜中 3 个的 结果数 与总选 择数的 比就是 
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75! 

17158! 

80! 


20160! 

如果 将上下 都乘上 2^， 上式 就成了 
80! 

U7!58! 八 80!  J 

可以看 到分子 和分母 中的阶 乘项很 接近， 几 乎可以 约去。 例如， 分 子中的 75! 和分 母中的 80! 
就 可以用 分母中 80 到 76 这 5 个数 的乘积 代替， 所 以可以 简化为 

10x60x59x20x19x18 

80x79x78x77x76 

这 样就可 以对可 控数字 加以计 算了， 结果是 0.084。 也就 是说， 玩家在 5 个数字 中猜中 3 个 的概率 
大约为 8.4%。 

4.9.3 基 本关系 

本节要 审视概 率的一 些重要 属性。 首先， 如果 是任一 事件的 概率， 那么 

0  ^  ^  1 

也就 是说， 任 何事件 都是由 0 个或更 多个点 组成， 所 以它的 概率不 可能为 负值。 而且， 没 有任何 
事 件会由 比整 个概率 空间还 多的点 构成， 所 以它的 概率不 会超过 1。 

其次， 设五是 某个概 率空间 P 中的事 件。 那么 事件五 的互补 事件五 就是尸 中不属 于事件 五的点 
的 集合。 不 难看岀 

prob(E)  +  prob(E)  =  1 

或 者换句 话说， PR0B(^)  =  l-PR0B(^)o 原因 在于， 尸 中的每 个点， 要么在 五中， 要么在 云中， 
不可 能同时 在二者 之中。 

4.9.4  习题 

(1)  使用图 4-14 中展 示的掷 两颗公 平骰子 的概率 空间， 给岀 以下 事件的 概率。 

(a)  掷岀的 点数为 6  ( 即 两颗骰 子点数 之和是 6  ) ; 

(b)  掷岀的 点数为 10; 

(c)  掷岀 的 点数为 奇数； 

(d)  掷岀的 点数在 5 到 9 之间。 

(2)  * 计 算以下 事件的 概率。 概率空 间是从 普通的 52 张 扑克牌 堆中按 次序取 两张牌 的所有 情况。 

(a)  至 少有一 张牌是 A; 

(b)  两张 牌的秩 相同； 

(c)  两张 牌花色 相同； 

(d)  两张牌 的秩和 花色都 相同； 

(e)  两张牌 要么秩 相同要 么花色 相同； 

(f)  第一张 牌的秩 高于第 二张牌 的秩。 

(3)  * 将 飞镖掷 向墙上 一英尺 见方的 区域， 击 中该方 形区域 中任何 一点的 可能性 都是相 同的。 那么在 
投掷 飞镖时 

(a)  离中心 3 英寸 以内的 概率是 多少？ 

(b)  离边缘 3 英 寸以内 的 概率是 多少？ 
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请 注意， 在该习 题中， 概率空 间是一 个一英 尺见方 的无限 区域， 其 中所有 点都是 等可能 性的。 

(4)  计 算玩家 在基诺 5 点游 戏中猜 中如下 数字的 概率。 

⑻ 猜中 5 个数 字中的 4 个； 

(b) 猜 中全部 5 个 数字。 

(5)  编写 C 语言 程序实 现线性 同余随 机数生 成器。 绘 制它生 成的前 100 个数 字最低 有效位 各数字 出现频 
率的直 方图。 该 直方图 应该具 有什么 属性？ 

4.10 条 件概率 

在本 节中， 我 们将指 定数项 公式和 策略， 用 来考虑 若干事 件概率 之间的 关系。 其中 一项重 
要的 结论就 是独立 实验的 概念。 在 独立实 验中， 一项实 验的结 果不影 响其他 实验的 结果。 我们 
还 将运用 一些技 巧来计 算某些 复杂情 形下的 概率。 

这些 结论都 依赖于 “条件 概率” 的 概念。 不严谨 地说， 如果进 行一次 实验， 而且得 知事件 
五已经 发生， 那么表 示这种 结果的 点也有 可能岀 现在另 一事件 F 中。 图 4-15 就展示 了这种 情况。 
五 条件下 F 的概 率就是 疋发生 前提下 F 也发 生的 概率。 


图 4-15 五 条件下 F 的概 率是 结果在 J 中的概 率除以 结果在 J 或在 5 中 的概率 

正 式地讲 ，如 果五和 F 是某 个概率 空间中 的两个 事件， 那么五 条件下 F 的概 率， 记作 PROB(F|^) ， 
就是同 时出现 在五和 F 中 的所有 点的概 率之和 除以岀 现在五 中各点 的概率 之和。 在图 4-15 中 ，区 
域 J 表示那 些同时 在五和 F 中 的点， 5 则表示 在五中 而不在 F 中的 点。 如果所 有点都 是等可 能的， 
那么 PROB(F|^) 就是 4 中 点的数 量除以 J 和 5 中点 的数量 之和。 

♦ 示例 4.26 

考虑图 4-14 中表 示掷两 颗骰子 的概率 空间。 设 事件五 是第一 颗骰子 点数为 1 的 6 个点， F 是第 
二 颗骰子 点数为 1 的 6 个点， 情 形如图 4-16 所示。 既在五 中又在 F 中的 点只有 一个， 即点 (1， 1)。 
在五 而不在 F 中的 点共有 5 个。 因此， 条 件概率 PROB(F 的为 1/6。 也就 是说， 在确定 第一颗 骰子为 
1 的条 件下， 第二颗 骰子为 1 的 概率是 1/6。 

大家可 能会注 意到， 这一条 件概率 刚好等 于7^ 本身的 概率。 也就 是说， 因为 F 占有 整个 概率空 
间 36 个 点中的 6 个点， 所以 PROB(F)  =  6/36=l/6。 从直观 上讲， 第 二颗骰 子掷岀 1 的 概率， 并不受 
第一颗 骰子已 经掷出 1 这一 事实的 影响。 我们 很快就 将定义 “独立 实验” （ 比如 依次掷 骰子） 的概 
念， 其中一 次实验 的结果 不会对 其他实 验的结 果产生 影响。 在这 样的情 况下， 如 果五和 F 是表 示两 
次实验 结果的 事件， 就可 以预期 PROB(i^)  =  PROB (巧。 我们 已经看 过这一 现象的 一个例 子了。 


♦ 示例 4.27 

假 设实验 是从有 52 张扑克 的牌堆 中按次 序取两 张牌。 在这 一不放 回选择 （ 如 4.4 节 所述） 实 
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验中， 点的 数目是 52x51  =2652。 假设 这种取 牌是公 平的， 所以每 个点的 可能性 都是相 同的。 

设 事件五 是第一 张牌为 A 的情 况， F 是第二 张牌为 A 的情 况。 那么 五中的 点共有 4x51=204 个。 
也就 是说， 第一 张牌是 4 张 A 中的某 一张， 而 第二张 牌可以 是除去 第一次 选走的 A 之外的 51 张牌 
中 的任意 一张。 因此， PROB ⑹ =204/2652=1/13。 这一 结果是 符合大 家的直 觉的。 所有 13 种 
秩都是 等可能 性的， 所以可 以预期 第一张 牌出现 A 的可 能是 1/13。 

同样， 事件 F 中也有 4x5 1=204 个点。 可以 为第二 张牌任 选一种 A， 并 在其余 51 张牌 中任选 
其一作 为第一 张牌。 第 一张牌 理论上 讲要先 取得， 而这一 事实是 无关紧 要的。 因此 A 岀现 在第 
二 张的情 况共有 204 种。 因此， 与五 一样， PROB ㈧ =1/13。 这个 结果还 是满足 A 是第 二张 牌的可 
能为 1/13 这 一直观 感受。 

现在来 计算 PROB(F| 五)。 在五的 204 个 点中， 第二张 牌也为 A  (也 就是 点也在 F 中） 的 情况有 
12 个。 也就 是说， 五中的 所有点 都表示 A 为第一 张牌的 情况。 选择 A 的方 式共有 4 种， 对应 4 种花 
色的 选择。 在 每种选 择中， 第二张 牌也为 A 的选 择都有 3 种。 因此， 根据 4.4 节 介绍的 技巧， 有序 
选 择两张 A 的情 况共有 4x3  =  12 种。 

因此， 条件概率？1103(7^)是12/204, 或 者说是 1/17。 可以注 意到， 在本 例中， £ 条件下 F 
的 概率与 F 的概 率并不 相等。 这也 是符合 直观感 受的。 当第一 张牌取 走一张 A 之后， 第二 张牌再 
取到 A 的概 率就下 降了。 那 时候， 剩下的 51 张牌 中只有 3 张 A， 而 3/51  =  1/17。 与之相 对的是 ，如 
果不知 道第一 张牌是 什么， 那 么第二 张牌就 可能是 52 张牌中 4 张 A 中的某 一张。 

4.10.1 独 立实验 

正 如示例 4.23、 示例 4.26 和示例 4.27 中所介 绍的， 有时候 建立的 概率空 间会表 示两个 或多个 
实验的 结果。 在最简 单的情 况下， 该 共同概 率空间 中的点 是结果 的表， 每 个表代 表一项 实验的 
结果。 图 4-16 就给岀 了两项 实验联 合起来 的概率 空间。 在实验 结果间 存在联 系的情 形中， 共同 
空间中 可能会 丢失一 些点。 示例 4.27 就 讨论了 这样的 情况， 其中共 同空间 表示取 两张牌 且结果 
成对， 其中 不可能 取到两 张相同 的牌。 

实验 爲虫立 于序列 中前序 实验的 结果。 从直 观概念 上讲这 意味着 I 的各 种结果 都不依 赖于前 
序 实验的 结果。 因此， 示例 4.26 中我 们指岀 掷第二 颗骰子 是独立 于掷第 一颗骰 子的， 而 在示例 
4.27 中， 我们 看到取 第二张 牌的实 验并非 独立于 取第一 张牌的 实验， 因为取 出第一 张牌后 ，就 
不可能 再次取 到这张 牌了。 

在定 义独立 性时， 将着重 于两项 实验的 关系。 不过， 因 为任一 实验本 身也可 能是一 个若干 
实验 构成的 序列， 所以 这样的 定义有 效地涵 盖了具 有很多 实验的 情况。 首 先必须 了解表 示两项 
成 功实验  不和為 的结果 的概率 空间。 

♦ 示例 4.28 

图 4-14 展示了 一个共 同概率 空间， 其中实 验不是 第一颗 骰子， 而实验 X2 是第二 颗骰子 。这 
里每一 •结 果都 是用一 个点表 示的， 而 这些点 的可能 性是相 等的， 都等于 1/36。 

在示例 4.27 中， 我 们讨论 过表示 按次序 选取两 张牌、 含 52 个点 的概率 空间。 该 空间由 (CU)) 
这样 的牌对 组成， 其中 C 和 乃 分别是 某张扑 克牌， 而且 。 这 些点的 可能也 相同， 都是 1/2652。 

在表示 不 接着 X2 的结 果的 概率空 间中， 存在 表示其 中一项 实验的 结果的 事件。 也就 是说， 
如果 是实验 不可能 出现的 结果， 就有 一个事 件是由 所有表 示第一 项实验 结果为 a 的点组 成的。 
这 里将该 事件称 为恿。 同样， 如果 6 是 实验石 可能 出现的 结果， 就有一 个事件 巧是 由所有 表示第 
二 项实验 结果为 6 的点组 成的。 


4.10 条 件概率  157 


♦ 示例 4.29 

在图 4-16 中， E 是 Eu 就是表 示第一 项实验 结果为 1 的所 有点。 同样， F 是事件 巧， 就 是那些 
表 示第二 项实验 结果为 1 的点。 每一 行对应 着第一 项实验 6 种 可能结 果中的 一种， 而每一 列则对 
应第二 项实验 6 种可 能 结果中 的 一种。 
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图 4-16 表 示第一 颗骰子 或第二 颗骰子 点数为 1 的事件 

严格 地讲， 如果对 不的所 有结果 a 以及石 的所有 结果心 有 PROB(G|£；)=PROB(^)， 那么 
就 说实验 石 是独立 于实验 不 的。 也就 是说， 不 管实验 石 的结 果是怎 样的， 实验 石 各结果 的条件 
概率 都是相 同的， 而 且都等 于实验 X2 在整个 概率空 间中的 概率。 

♦ 示例 4.30 

回到图 4-16 表 示掷两 颗骰子 的概率 空间， 设 《 和 6 分别是 1 到 6 这些 数字中 的任意 一个。 用 & 
表示 第一颗 骰子为 a 的 事件， 巧表 示第二 颗骰子 是纟的 事件。 不难注 意到， 这些事 件的概 率均为 
1/6, 它们各 自排成 一行或 一列。 对 任意的 a 和 6 来说， PROB (巧 |^) 也是 1/6。 我们 在示例 4.26 中 
已经证 实这一 结论在 a  =  b  =  l 的情况 下是成 立的， 不 过同样 的论证 过程也 适用于 任意两 个结果 《 
和办， 因为 它们的 事件只 有一个 点是相 同的。 因此， 掷两次 骰子是 相互独 立的。 

另一 方面， 在 以扑克 牌为例 的示例 4.27 中， 就 不存在 这种独 立性。 因为， 实验 不是 第一张 
牌的 选择， 而实验 X2 是从剩 下的 牌中选 择第二 张牌。 考 虑诸如 这样的 事件， 也 就是说 ，第 
二张牌 为黑桃 A 的情 况。 很 容易便 能得出 该事件 的概率 PROB(i^) 为 1/52 的 结论。 
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再来考 虑诸如 也 就是第 一张牌 为草花 3 的 情况。 同在 & 和 & 中 的点只 有一个 ，就 
是点 (3*,A*)。 而五 3+ 中的 点共有 51 个， 也就 是形如 (3*, C) 这样 的点， 其中 C 是除 了草花 3 之外 
的 任意一 张牌。 因此， 条 件概率 PROBF^J^) 是 1/51， 而不是 1/52, 因为 这两项 实验不 是相互 
独 立的。 

可 以考虑 一个更 极端的 例子， 就是第 一张牌 为黑桃 A 的事件 因为 五^和7^ 中 没有相 
同 的点， 所以 PROB(& |Aa) 就是 0, 而不是 1/52。 

4.10.2 概率的 分配律 

有 时候， 如果先 将概率 空间划 分为几 个区域 ®， 就会 让概率 的计算 变得更 加容易 。也就 是说， 
每个 点都只 出现在 一个区 域中。 通常， 概率空 间表示 一系列 实验的 结果， 而表示 事件的 区域则 
对应其 中某一 实验可 能 岀现的 结果。 

假 设要计 算被分 为及、 尺2、 …、 & 这 A 个区 域的某 个具有 《 个点的 概率空 间中事 件五的 概率。 
简单 起见， 假设 所有点 的概率 都是相 同的， 尽管 就算它 们的概 率不同 也不影 响结论 的成立 。设 
事 件五由 m 个点 组成。 设区域 及中有 .个点 （/  =  1、2、 …、 k\ 最后， 设 五中处 于区域 尺,. 中的点 
有6; .个。 请 注意， YJ-id 而且 原 因皆在 于这些 点都会 在某个 区域中 而且只 
会在 一个区 域中。 

我 们知道 PROB(£)  =  m/« ， 因为 m/« 就是 五 中的点 所占的 部分。 如果用 的和 替代 w, 就 

得到 


PROB ⑹ =1」 

/ =1  n 

接着， 在上述 和式中 每一项 的分子 和分母 中都引 人因子 结 果就是 


现在， 请注意 /：/ 〃就是 PROB(i?;)， 也就 是说， 是区域 R 在整个 概率 空间中 所占的 部分。 
此外， 就是 PROB (五 /及）， 即事件 & 条 件下事 件五的 概率。 换句 话说， 是区域 i?,. 中 
也岀 现 在五中 的点的 比例。 结果就 得到以 下事件 五概率 的计算 公式。 


PROB  ⑹ = J]PROB(^|i?;.)PROB(i?/) 


(4.10) 


非正式 地讲， 五的 概率是 各区域 的概率 乘上五 在相应 区域中 的 概率的 总和。 

♦ 示例 4.31 

图 4-17 表示了 (4.10) 式 的应用 方式。 图 中展示 了被垂 直划分 为及、 和馬这 3 个区域 的概率 
空间。 其中事 件五是 再度用 线勾勒 岀的。 设通 J/ 分别 是所示 6 个组 中点的 数目。 

设 《  =  a  +  6  +  c  +  d  +  e  +  / 。  PROB(  R{)  =  (a  +  b)/ n  ,  PROB(  R2)  =  (c  +  d)/  n  , 而且 

PROB(  i?3 )  =  (£?  +  /)/« 。 而事件 五在这 3 个区 域的条 件概率 分别是 PROB (五 |i?2  )  =  a/ (a +  b) , 
PROB(  E\R2)=c/(c  +  d) , 而且  PROB( 五  |i?3  )  =  e  /  (e  +  /) 。 现在 来评估 (4. 1 0) 式， 就有 


① “ 区域” 指 的就是 “事 件”， 也就 是概率 空间的 子集。 不过， 这里使 用术语 “ 区域” 是为了 强调这 是将概 率空间 
分为 完全覆 盖整个 区域又 不互相 重叠的 事件。 
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^  R2 
图 4-17 分为区 域的概 率空间 


PROB(  E  )  =  PROB (五  )PROB(  Rx  )+PROB(  E  \R2  )PROB (尺 2  )+PROB (五  |i?3  )PROB(i?3) 

如果将 该式用 a 到/ ^ 参数 表示， 就是 


PROB( E  ) = 


a  +  b 


c  +  d 


+  b 


c  +  d 


e  +  f. 


e  +  f' 


ace 
=-+—+- 
n  n  n 


请 注意， 直接将 标记有 fl、 c、 e 的 3 块中 点的数 目与整 个空间 的大小 相比， 也 能得到 同样的 结果。 


(a  +  c  +  e)/n 这 一分数 正是上 式给出 的五的 概率， 这 一结果 证明了 (4. 10) 式。 


♦ 示例 4.32 

现 在利用 (4.10) 式计算 事件五 “按次 序取两 张扑克 牌均是 A” 的 概率。 概 率空间 是示例 4.27 
中讨论 过的那 2652 个点。 这里要 将该空 间分为 &、 馬两个 区域。 

Rr. 第一 张牌为 A 的那 些点。 总共有 4x51  =204 个这样 的点， 因 为第一 张牌为 A 的情 况有 4 
种， 而每种 情况下 对应的 第二张 牌都有 51 种 选择。 

R2： 剩下的 2448 个点 。 

这种情 况下， （4.10) 式 就成了 

PROB (五） = PROB (五 |及 )PROB(  R{  )+PROB( E \R2  )PROB(i?2) 

显然 PROB (五 |晁）， 也就是 '条 件下五 的条件 概率， 为 0。 如果 第一张 牌不为 A， 那 么不可 能拿到 
两张 A, 因此必 须计算 PROB (五 |及 ）PROB(^  )， 而这个 值就是 PROB(E  )。 现在有 PROB (及） 
=  204/2652  =  1/13。 换句 话说， 第一张 牌拿到 A 的可 能性是 1/13。 因为 总共有 13 种秩， 所 以这一 
概率 是说得 通的。 

现在需 要计算 PROB (五 | 恳）。 如 果第一 张牌是 A， 那么 剩下的 51 张牌 中还剩 3 张 A。 因此， 
PROB (五 )  =  3/51  =  1/17 。 因此可 以得岀 结论： PROB (五 ）=(1/17)(1/13)  =  1/221。 

♦ 示例 4.33 

现在用 (4.10) 式 来计算 事件五 “掷 3 颗 骰子， 至少出 现一个 1 点” 的 概率， 就 像示例 4.16 中描 
述过 的掷骰 子游戏 那样。 首先， 我们 一定要 理解， 那个 例子中 描述的 “ 结果” 的 概念与 概率空 
间中的 点并不 匹配。 在示例 4.16 中， 我 们建立 的概率 空间有 56 种 不同的 “结 果”， 这是骰 子出现 
1 到 6 点的 次数。 例如， “一个 4 点、 一个 5 点 和一个 6 点” 是一 种结果 ，而 “两个 3 点 和一个 4 点” 
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是 另一种 结果。 然而， 这种 情况下 各种结 果的概 率并不 相同。 特 别要说 的是， 3 个 数字都 不同的 
概率 是某个 数字岀 现 两次的 概率的 两倍， 是 3 个骰 子数字 都相同 的 概率的 6 倍。 

尽管 可以使 用点对 应示例 4.16 中那种 “ 结果” 的概率 空间， 不过 考虑按 顺序掷 骰子， 从而 
构建 一个包 含的点 概率相 等的概 率空间 要更为 自然。 这样一 来就有 63=216 种不同 的结果 与按次 
序掷 3 次骰子 的事件 对应， 而 每个结 果的概 率均为 1/216。 

我 们可以 不使用 (4.10) 式， 而是 直接计 算至少 有一颗 骰子为 1 点的 概率。 首先， 计 算没有 1 
出 现的情 况数。 可以为 3 颗骰 子分配 2 到 6 之中 的任一 数字。 这样概 率空间 中不含 1 的 点共有 
53  =125 个， 所以有 1 的点 就有 216- 125  =  91 个。 因此， PROB (芯 ）91/216 ， 大约为 42%。 

上述方 法虽然 简短， 但 需要使 用些许 “技 巧”。 计 算这一 概率的 另一种 方式是 “ 强行” 将概 
率空 间分为 3 个 区域， 对应岀 现一个 数字、 两 个不同 数字或 3 个不同 数字的 情况。 设 & 是具有 / 
个 不同数 字的点 所在的 区域。 可以 按照下 列方式 计算各 区域的 概率。 就及 而言， 总共有 6 个点， 
也就是 3 个骰 子均为 1 到 6 这些 点时的 情况。 就 而言， 根据 4.4 节中的 规则， 从 6 个数字 中选出 3 
个不 同的数 字共有 6x5x4  =  120 种 方式。 因此 中一定 是具有 剩下的 216-6-120  =  90 个点。 ® 
各区域 的概率 分别是  PROB (及） =6/216  =  1/36 、 PROB(  R2  )  =90/216  =  5/12 、 
PROB(i?3 )  =  120/216  =  5/9  0 

接 着要计 算条件 概率。 如果 出现了 6 个数 字中的 3 个 数字， 那 么其中 一个为 1 的 概率是 1/2。 
如果 岀现了 2 个 数字， 那么 至少出 现一次 1 的 概率是 1/3。 如果 只有一 个数字 岀现， 那么该 数字为 
1  的 概率是  1/6。 因此 PROB (五 h)  =  l/6 、 PROB(^|^2  )  =  1/3  , 而且 PROB (五 |i?3  )  =  1/2。 将这些 
概率 都代人 (4.10) 式中， 就得到 

PROB( 五 ） = (1  /  6)(1  /  36)  +  (1  /  3)(5  / 12) +  (1/  2)(5/ 9) 

=  1/216  +  5/36  +  5/18  =  91/216 

当然， 这一 分数和 直接计 算的结 果是吻 合的。 如 果能理 解直接 计算中 的那些 “诀 窍”， 那 么直接 
计算的 方法是 相当容 易的。 不过， 将问题 分为若 干区域 往往是 一种更 为可靠 的保障 成功的 方式。 


4.10.3 独立实 验的乘 积法则 


一 类常见 的概率 问题是 求一系 列独立 实验的 一系列 结果的 概率。 在 这种情 况下， （4.10) 式具 
有 了特别 简单的 形式， 表明 这一系 列结果 的概率 就是每 一结果 概率的 乘积。 

首先， 将概率 空间等 分为外 区域， 就 会对所 有的洧 PROB(i?,)  =  l/A， 因此 (4.10) 式 可以简 

化为 


k  1 

PROB(  E)=Y_j~  PROB(  E\Rf  ) 
；=i  k 


(4.11) 


看待 (4. 1 1) 式 的一种 实用方 式是将 五的概 率视为 各区域 条件下 五的概 率的平 均值。 

现在 考虑表 示两项 独立实 验不和 石 的结果 的概率 空间。 可以 将该空 间分为 ( 个区 域， 每个区 
域都 是点的 集合， 这些点 表示具 有某个 特定值 的不的 结果， 这样 每个区 域都具 有相同 的概率 1 从。 
假设 要计算 事件五 “不的 结果为 a， 且 X2 的结 果为沪 的 概率， 可 以使用 (4.11) 式。 如 果足不 


是对应 不 的结果 a 的区 域， 那么 PROB (五 |及）=  0。 因此， （4.11) 式中就 只剩下 a 区域的 项了。 如果 
说该 区域为 就得到 


①可 以直接 计算该 数字， 用选择 会出现 两次的 点数的 6 种 方式， 乘上 选择其 余骰子 点数的 5 种 方式， 再乘上 选择只 
出现 一次的 那个数 字所在 位置的 （:） =  3 种 方式。 就是 6x5x3=90 种 方式。 
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PRO 


B  ⑷ =  |PR0B (艰) 


(4.12) 


PROB (芯 |0 是什 么？ 它是 在不的 结果为 a 的条 件下， “不的 结果为 a， 且 X2 的结 果为沪 的概 
率。 因 为给定 了不的 结果为 fl， 所以 PROB (五 | 昃) 是 在不的 结果为 a 的条 件下， 的 结果为 如勺概 
率。 又因 为不秕 & 是 相互独 立的， 所以 PROB (五 | 恿） 就是不 的结果 为办的 概率。 如果不 可能有 m 种 
结果， 那么 PROB (五 |&) 就是 l/mQ 那么 (4.12) 式 就成了 


PROB(  E  ) = 


我 们可将 上述推 理一般 化为针 对任意 数量的 实验。 想这 样做， 可以 令实验 不是 一系列 实验， 


并通过 对独立 实验总 数量的 归纳来 证明， 有着 特定序 列的全 部结果 的概率 等于每 个结果 的概率 
的 乘积。 


利用独 立性简 化计算 

如 果知道 实验是 相互独 立的， 就 有很多 机会简 化概率 计算。 乘 积法则 是一个 例子。 另一个 
例子 就是， 只 要五是 表示实 验; ^ 特定结 果的点 集合， F 是另 一个独 立实验 Z2 特定结 果的点 集合， 
那么 就有  PROB(  E\F)  =  PROB (五 ）0 

原则 上讲， 分辨 两项实 验是否 相互独 立是个 复杂的 任务， 涉及 对表示 实验结 果对的 概率空 
间的 检测。 不过， 通常可 以借助 该情形 的物理 特性， 在不进 行这种 计算的 情况下 得出实 验互相 
独立的 结论。 例如， 在依 次掷殼 子时， 不存在 物理学 上的原 因令一 次投掷 的结果 能影响 其他投 
掷的 结果， 所以它 们肯定 是独立 实验。 而从牌 堆中取 牌则与 掷骰子 的情况 不同。 因为取 出的牌 
是无 法在随 后的过 程中被 再次取 出的， 所 以不用 指望连 续取牌 是相互 独立的 事件。 事实上 ，我 
们 已 在示例 4.29 中 看到了 这种独 立性的 缺失。 


♦ 示例 4.34 

电话 号码后 四位为 1234 的 概率是 0.0001。 每一 位号码 的选择 都是有 0 到 9 这 10 种可能 结果的 
实验。 其次， 每一 位的选 择都独 立于其 他位的 选择， 因为 这里进 行的是 4.2 节中 介绍的 “ 有放回 
的选 择”。 第 一位是 1 的 概率为 1/10。 同样， 第 二位是 2 的 概率为 1/10, 而其 他两位 的情况 也是一 
样的。 所以 4 位数字 依次为 1234 的概 率就是 (1/10)4=  0.0001。 

4.10.4  习题 

(1)  使用图 4-14 所示 的概率 空间， 给 岀如下 事件对 的条件 概率。 

(a)  在第 一颗骰 子为奇 数的条 件下， 第二颗 骰子是 偶数。 

(b)  在第二 颗骰子 至少为 3 的条 件下， 第一颗 骰子是 偶数。 

(c)  在 第一颗 骰子为 4 的条 件下， 两颗 骰子点 数之和 至少为 7。 

(d)  在 两颗骰 子点数 之和为 8 的条 件下， 第二颗 骰子是 3。 

(2)  将 掷骰子 （见 示例 4.16) 游戏 的概率 空间按 照示例 4.33 所示 划分为 3 个 区域， 使用这 一划分 方式与 
4.10 式计 算如下 概率。 

(a)  至少岀 现两个 1 点。 

(b)  3 颗骰 子都是 1 点。 
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(c) 刚好 有一颗 散子是 1 点。 

(3)  证明： 在掷 3 颗骰 子的游 戏中， 3 颗骰子 点数均 不同的 概率， 是 有两颗 骰子岀 现同一 点数的 概率的 
两倍， 是 3 颗骰子 点数均 相同的 概率的 6 倍。 

(4)  * 通过对 n 的归纳 证明， 如果有 n 项实 验， 而且每 一项实 验都是 相互独 立的， 那么任 一系列 结果的 
概率等 于对应 实验各 项结果 概率的 乘积。 


(5) * 证明： 如果有 PROB(F| 五） sPROBP  )， 则有 PROBPl^1  )=PROB (五） 。 并 证明： 如 果实验 不 独立 
于实验 為， 那么為 也独 立于 界。 

(6)  * 考虑从 W 和 L 中作 岀选择 组成的 长度为 7 个 字母的 序列的 集合。 可以 将其视 为表示 7 场 4 胜制 比赛的 
结果的 序列， 其中 W 表示第 一支队 伍获得 1 场 比赛的 胜利， 而 L 表示 第二 支队伍 获胜。 哪支 队伍先 
取得 4 场胜 利则赢 得这场 系列赛 （因 此， 有些比 赛可能 从未进 行过， 不 过我们 需要将 其假设 结果包 
含 在这些 点中， 从而 获得各 点概率 相等的 概率空 间）。 

(a)  在 某支队 伍取得 第一场 比赛胜 利的条 件下， 该队在 这个系 列赛中 取胜的 概率？ 

(b)  在 某支队 伍取得 前两场 比赛胜 利的条 件下， 该队在 这个系 列赛中 取胜的 概率？ 

(c)  在 某支队 伍取得 前三场 比赛胜 利的条 件下， 该队在 这个系 列赛中 取胜的 概率？ 

(7)  ** 有 3 个囚犯 5 和 C。 他 们得知 3 人 中有一 个要被 枪决， 而且 狱警知 道要枪 决谁。 J 让狱 警告诉 
他 其他两 个囚犯 中哪个 不会被 枪决。 狱警 告诉尤 5 不会被 枪决。 

2 推 理要么 是他， 要么是 C 被枪 决， 所以 J 被 枪决的 概率是 1/2。 另一 方面， 对 J 进行 推理， 不管谁 
被 枪决， 狱警 都知道 J 之外 的某人 不会被 枪决， 所 以他总 能回答 J 的问 题。 因此， 通 过该问 题的提 
问和回 答都不 能判忠 4 是 否会被 枪决， 所以 J 将被枪 决的概 率仍是 1/3, 就像 在提岀 问题之 前的概 
率 那样。 

那 么在经 过上述 系列事 件后， 3 将 被枪决 的真实 概率是 多少？ 提示： 需要构 建合适 的概率 空间， 
不 只要表 示囚犯 被选中 枪决的 实验， 而 且要表 示狱警 有权选 择回答  “5”  或 “C” 的 情况下 作岀某 
种 选择的 实验的 概率。 

(8) * 假设五 是处在 被分为 4、 馬、 …、 这 Fh 区 域的空 间中的 事件。 证明： 


prob(R  \E  )  ■■ 


PROB(i?y  )PROB(J£， ,. ) 


^f=1PROB(i?,.)PROB(^|i?;) 

该公 式被称 为贝叶 斯定理 （ Bayes’  Rule  ) 。它给 岀 了在已 知五的 条件下 尺7.的 概率 的值。 针 对示例 4.31 ， 
使 用贝叶 斯定理 计算 PROB( 昇 | 五）、 PROB(  R2  \E  ；^nPROB(  1 五）。 


4.11  概 率推理 

概率在 计算机 领域的 一项重 要应用 就是用 在事件 预测系 统的设 计中。 其 中一个 例子就 是医疗 
诊断 系统。 理想状 态下， 诊 断过程 包含执 行检测 或观察 症状， 直到检 测结果 或特定 症状的 岀现与 
否使医 生足以 确定患 者所患 的疾病 为止。 然而， 在 实际操 作中， 诊断 很少是 确定无 疑的。 诊断出 
的只 是最为 可能的 疾病， 或者 是在进 行检测 和观察 症状的 实验条 件下， 条 件概率 最大的 疾病。 

现在来 考虑一 个特别 简单的 例子， 此例 就利用 了概率 的诊断 风格。 假 设已知 当患者 出现头 
痛时， 他患 流感的 概率为 50%， 也就是 

PROB (流感 | 头痛） =0.5 

在上 式中， 我们将 “ 流感” 解释为 “患 者得了 流感” 这一 事件的 名称。 同样， “头 痛”是 “患者 
自称 头痛” 这一事 件的名 称。 

假 设还知 道当患 者的体 温达到 或超过 38.9 摄氏 度时， 该 患者得 流感的 概率是 60%。 如果将 “ 发烧” 
作为 “患 者体温 至少为 38.9 摄 氏度” 这一 事件的 名称， 就 可以将 这一结 论写为 
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PROB (流感 | 发烧） =0.6 

现在， 考虑如 下诊断 情形。 某患 者来看 医生， 表示 自己有 头痛的 症状。 医生为 他量了 体温， 
发 现他的 体温是 38.9 摄 氏度， 那么该 患者患 流感的 概率是 多少？ 

这种情 形如图 4-18 所示。 其中有 “流 感”、 “头 痛”和 “ 发烧”  3 个 事件， 将该空 间分为 8 个 
区域， 这里 分别用 a 到/ z 这些 字母表 示这些 区域。 例如， c 就是 “ 患者具 有头痛 症状而 且患了 流感， 
但不 发烧” 这一 事件。 


给定 的这些 概率信 息对图 4-18 中事 件的大 小提岀 了一些 限制。 若 不仅用 a 到/ ^ 表示图 4-18 中 
的那些 区域， 还 用这些 字母表 示对应 事件的 概率。 那么条 件概率 PROB (流感 | 头痛 )=0.5 就表示 
区域 c+/ 的和是 “ 头痛” 事件总 大小的 一半， 或者 换种形 式就是 

c  +  f  =  d  +  g  (4.13) 

同样， PROB (流感 | 发烧 )=0.5 这一事 实表示 e+/ 是 “ 发烧” 事件总 大小的 3/5, 或者说 

e  +  f  =  ^(g  +  h)  (4.14) 

现在 来解说 “ 在发烧 和头痛 同时出 现的条 件下， 患 流感的 概率是 多少” 这一 问题。 实情就 
是， 发烧 和头痛 同时岀 现的情 况表明 要么是 在区域 /中， 要么是 在区域 g 中。 在区 域/中 时流感 
的诊 断是正 确的， 而 在区域 g 中时则 不是。 因此， 患流感 的概率 就是/ /(/  +幻。 

那么 //(/  +  g) 的 值是多 少呢？ 答案可 能有点 惊人。 显然 没有任 何关于 “ 流感” 事 件概率 
的 信息， 它 可能是 0, 也 可能是 1， 还 可能是 0 和 1 之间 的任意 数字。 下面 有两个 例子， 它 们分别 
表示图 4-18 所 示概率 空间中 的点有 可能出 现的实 际分布 情况。 
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♦ 示例 4.35 

假设图 4-18 中与 众事件 关联的 概率分 别是： d  =  f  =  Q3 ， a  =  h  =  0.2, 而其他 4 个区 域的概 
率都是 0。 请 注意， 这些值 都满足 (4.13) 式和 (4.14) 式 给出的 限制。 在本 例中， //(/  +幻=1， 也 
就 是说， 同时 有头痛 和发烧 症状的 患者肯 定得了 流感。 那么图 4-18 中的概 率空间 实际就 成了图 
4-19 所示的 样子。 从该 图中可 看出， 只 要患者 同时有 发烧和 头痛的 情况， 那 么他肯 定患了 流感， 
而且反 过来， 只要 他得了 流感， 那么 肯定有 发烧和 头痛的 症状。 ® 


图 4-19 当 “发 烧”和 “ 头痛” 确保 “ 流感” 时的空 间示例 


♦ 示例 4.36 

另 一个例 子是给 定概率 c  =  g  =  0.2 ， a=e  =  0.3  , 而 其他概 率则是 0。 （4. 13) 式和 (4. 14) 式还 
是 能得到 满足。 不过， 现在 //(/  +幻=  0。 也就 是说， 如果患 者同时 有发烧 和头痛 的情况 ，那 
么 他肯定 不会得 流感。 这一表 述相当 可疑， 不过 (4.13) 式和 (4.14) 式又 不能推 倒这一 表述。 这一 
情 形如图 4-20 所示。 


图 4-20 当 “发 烧”和 “ 头痛” 确保不 “ 流感” 时的空 间示例 


① 虽 然也有 6  #  0 的其他 例子， 也就是 患者患 了 流感却 既不发 烧也不 头痛， 但 还是有 //(/  +  g)  =  l0 
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4.11.1  OR 结 合的两 个事件 的概率 

如果没 法分辨 上述情 形中当 患者既 发烧又 头痛时 会发生 什么， 我们可 能想知 道有没 有什么 
可 说的。 在更简 单的情 形下， 事件 结合时 概率的 行为其 实是有 一些限 制的。 最简 单的情 况可能 
就是 用析取 （disjunction) 或者 说逻辑 OR  (逻辑 “ 或”） 结合两 个事件 时的情 况了。 

♦ 示例 4.37 

再来 看看图 4-18。 假 设已知 在任意 时间， 有 2% 的人 发烧， 且有 3% 的 人感到 头痛。 也就 是说， 
“ 发烧” 事件的 大小为 0.02, 而 “ 头痛” 事件的 大小为 0.03。 那么， 有 发烧或 头痛中 任一种 情况， 
或是 两种情 况都有 的 人所占 比 例是多 大呢？ 

答案 是至少 有一种 症状的 人所占 比例在 3% 到 5% 之间。 要知道 为何， 用图 4-18 定义的 8 个区 
域 来进行 一些计 算吧。 如果 “ 发烧” 的 概率为 0.02, 也 就是说 

e  +  h  +  f  +  g  =  0.02  (4.15) 

如果 “ 头痛” 的 概率是 0.03, 那么有 

c  +  d  +  f  +  g  =  0.03  (4.16) 

之前 的问题 是至少 有一种 症状的 区域为 多大， 也 就是问 e  +  A  +  /  +  g  +  c  +  d 有 多大。 

如果将 (4.15) 和 (4.16 湘加， 就得到 e  +  /?  +  2(/  +  g)  +  c  +  i/  =  0.05 ， 或者换 种方式 表示： 

e-\-  h~\~  f  g  c  d  =  0.05  -  (/  +  g*)  (4.17) 

因为 “发烧 OR 头痛” 的 概率是 (4.17) 式 的左边 部分， 所以 (4.17) 式的右 边部分 0.05-(/  +  g) 也是 
这一 概率。 

/  +  g 至少为 0, 所以 “发烧 OR 头痛” 的概率 最高是 0.05, 不可 能超过 0.05。 也 就是说 ，头 
痛和 发烧的 症状有 可能从 不同时 出现。 那么区 域/和 g 都为 空， 而 e  +  /?  =  0.02, 且 c  +  d  =  0.03。 
在 这种情 况下， “发烧 OR 头痛” 的 概率是 “ 发烧” 的 概率与 “ 头痛” 的概率 之和。 

那么 /  +  g 的 最大值 可能是 多少？ 当然， /  +  g 既不 可能大 于整个 “ 发烧” 事件， 也 不可能 
大 于整个 “ 头痛” 事件。 因为 “ 发烧” 更小， 所 以可知 /  +  g  <0.02。 因此， “发烧 OR 头 痛”的 
最 小概率 可以是 0.05- 0.02， 也就是 0.03。 这一结 果正好 是两个 事件中 较大的 “ 头痛” 事 件的概 
率， 这并非 巧合。 换种方 式看， “发烧 OR 头痛” 概率 的最小 值会在 两个事 件中较 小那个 完全被 
较 大那个 包含时 岀现。 在本 例中， 这种情 况会在 6  +  ^  =  0, 也就是 “ 发烧” 完全 包含在 “ 头痛” 
中时 出现。 在 那种情 况下， 除非有 头痛， 不 然不会 发烧， 所以 “发烧 OR 头痛” 的 概率就 是“头 
痛” 的概率 —— 0.03。 

现 在可以 将示例 4.37 中的 探索一 般化为 针对任 意两个 事件， 求和规 则如下 所示。 如 果芯和 F 
是任 意两个 事件， 而 G 是 £或， 有一个 发生或 两者都 发生的 事件， 那么 

max(PR0B(£),PR0B(F))  ^  prob(G)^  prob  ⑹ +prob(F)  (4.18) 

也就 是说， 五-OR-F 的 概率是 在五的 概率和 F 的概率 中较大 者与二 者的和 之间。 

同 样的概 念放在 任意其 他事件 好 中也 成立。 也就 是说， （4.18) 中 的所有 概率都 可以是 某事件 
// 条件下 的条件 概率， 这样就 能给出 更具概 括性的 规则： 

max(PROB(£,  I  H),prob(F  \  H))^prob(G  \  H)^prob(E  \  H)+prob(F  \  H)  (4.19) 

♦ 示例 4.38 

假 设在图 4-18 所示 情形中 已知得 流感的 人中有 70% 会 发烧， 而且得 流感的 人中有 80% 会头 
痛。 那么在 (4.19) 中， “ 流感” 就 是事件 开， 五就是 “ 发烧” 事件， F 是 “头 痛”， G 是 “头痛 OR 
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发 烧”。 已知 PROBCE  |  /^)=PROB (发烧  |  流感） =0.7, 而 PROBCF  |  句 = PROB (头痛  |  流感 ） =  0.8。 

规则 (4.19) 表示 prob(G  | 功 至少是 0.7 和 0.8 中的较 大者。 也就 是说， 如 果患了 流感， 那么发 
烧或 头痛或 两种情 况都有 的概率 至少是 0.8。 规则 (4.19) 还表明 prob(G  | 句 至多是 

PROB^  I  H)  +  PROB(F  I  H) 

或 者说是 0.7 +  0.8  =  1.5。 不 过这一 上界是 没有意 义的， 因为事 件的概 率不可 能大于 1， 所以 1 才 
是 PROB((?  |  更佳的 上界。 

4.11.2  AND 结合 的事件 的概率 

假 设已知 “ 发烧” 的 概率是 0.02, 而 “ 头痛” 的 概率是 0.03。 那么 “发烧 AND 头痛” 的概 
率是 多少？ 也就 是说， 一个 人同时 有发烧 和头痛 症状的 概率是 多少？ 就像 之前两 个事件 OR 结合 
的情况 那样， 没 办法给 岀精确 的值， 不过有 时候可 以为两 个事件 的合取 （conjunction) 或者说 
逻辑 AND  (逻辑 “ 与”） 的 概率给 出一些 限制。 

在图 4-18 的情 况下， 是要问 /  +  g 可以有 多大。 我 们已经 得知， 如果用 OR 关 系连接 事件， 
那么 当两个 事件中 较小者 （在 该情 况下是 “ 发烧” 事件） 完全被 另一个 事件包 含时， /  +  g 会 
有最 大值。 那么， “ 发烧” 事件的 概率都 集中在 /  +  g 中， 而且有 /  +  g  =  0.02, 也就是 “ 发烧” 
事件 单独的 概率。 一般 而言， 两 个事件 AND 结 合的概 率不会 超过较 小者的 概率。 

那么 /+g 可以有 多小？ 显然， 没什 么情况 能阻止 “发 烧”和 “ 头痛” 完全 没交集 的情况 
岀现， 所以 /  +  g 是 可以为 0 的。 也就 是说， 可能 没人同 时具有 发烧和 头痛的 症状。 

不过 上述想 法并不 具有一 般性。 假 设事件 “发 烧”和 “ 头痛” 并不是 0.02 和 0.03 这样 的微小 
概率， 而是分 别有着 60% 和 70% 的 概率。 那 么还可 能说没 人同时 具有发 烧和头 痛的症 状吗？ 如果 
在这 种情况 下还有 f  +  g  =  0  , 那 么就有 e  +  h  =  0.6  , 而且 c  +  d  =  0.7 。 这 样一来 e  +  h  +  c  +  d  =1.3  , 
也就 是说， 图 4-18 中 的事件 e  +  A  +  c  +  d 的概率 就大于 1  了， 而这 是不可 能的。 

显然， 两个 事件的 AND 连 接的大 小不能 比两事 件概率 之和减 1 还小。 否则， 相 同的两 个事件 
的 OR 连接的 概率就 会大于 1。 这一 结论是 在乘积 法则中 总结出 来的。 如 果五和 F 是两 个事件 ，而 
G 事件是 指五和 F 同时 发生， 那么 

prob(£)+prob(F)  -1  ^  prob(G)^  min(PR0B ⑹， prob(F)) 

与求 和规则 一样， 相 同的概 念也适 用于另 一事件 开 条 件下的 情况。 也 就是有 

prob (五  |  H)+prob(F  I  H)  -1  ^prob(G  I  彡  min(PR0B (五  I  H),vrob{F  \  H))  (4.20) 

♦ 示例 4.39 

再来 看看图 4-18。 假设患 流感的 人中有 70% 会 发烧， 而且有 80% 会 头痛。 那么 有多少 人同时 
有发烧 和头痛 症状？ 根据 (4.20)， 其中 // 为 “ 流感” 事件， 那 么在某 人患流 感的条 件下， 同时有 
发 烧和头 痛症状 的概率 至少是 0.7 +  0.8  — 1  =  0.5 ， 至多是 min(0.7,0.8)  =  0.7 。 


涉及 若干事 件的规 则总结 

下面 的内容 对本节 介绍的 规则和 4.10 节 中 有关独 立事件 的规则 进行了 总结。 假设事 件五和 F 
的 概率 分别为 p 和 q ， 那么 有下列 结论。 

□ 事件 芯-oivF  ( 即 五 和 F 至少 有一个 发生） 的概率 至少是 max(/?,g)， 且 至多是 (或 者如 
^-P+q  >  1 , 就是  1  )。 
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□ 事件 五-and-i7  ( 即 五 和 i7 同时 发生） 的概率 至多是 minhg) ， 且 至少是 ( 或 者如果 
p+q  <  1 , 就是 0  )。 

□如 果 五和^7 是相 互 独立的 事件， 那么 五-and-i7 的 概 率就是 。 

□ 如果五 和 F 是相互 独立的 事件， 那么 五-oixF 的 概 率就是 广叫-网。 

最后 一个规 则可能 要费些 思量。 五 -or-F 的概率 是；? 减去 事件同 时发生 的那部 分空间 ，因 
为在 将五和 F 的概率 相加时 那部分 空间被 计算了 两次。 而同 在五和 F 中的点 正好是 事件五 -and-F, 
它 的概率 就是 , 因此， 

PROB^-or-F)  =  PROB(£)  +PROB(F)  -PROB^-and-F)  =  p+q-pq 
下图 展示了 这若 干事件 之间的 关系。 


f-and-F 


概率 1 


E-or-F 

概率 =/>+^-网 


4.11.3 处理事 件间关 系的一 些方法 

在那 些需要 计算复 合事件 （ 就是若 干其他 事件的 AND 或 OR 结果 事件） 的 概率的 应用中 ，往 
往不需 要知道 确切的 概率。 不过， 我们需 要确定 最可能 的情形 或者说 高概率 （即概 率接近 1) 
的 情形。 因此， 只要能 推断出 事件的 概率为 “ 高”， 复合事 件的概 率范围 就不太 可能会 带来大 
问题。 

例如， 在示例 4.35 引入 的医疗 诊断问 题中， 我们 可能永 远都没 法推断 岀患者 患流感 的概率 
为 1。 不 过只要 结合观 察到的 症状和 患者未 出现的 症状， 就能得 出他患 流感的 概率非 常高， 将患 
者诊断 为流感 就应该 是很明 智的。 

然而， 我 们发现 在示例 4.35 中， 基 本上说 不出同 时具有 头痛和 发烧症 状的患 者患流 感的概 
率， 即便 知道每 种症状 都能强 有力地 表示患 者患了 流感， 也是 如此。 真正 的推理 系统需 要更多 
用 来估算 概率的 信息或 规则。 作 为一个 简单的 例子， 可以明 确给出 PROB。 流感 I 头痛 AND 发烧。 
这一 概率， 这 样就可 以立刻 解决该 问题。 

不过， 如 果将氏 、岛 、… 、&这 《 个事 件结合 起来得 出另一 个事件 F， 那么就 需要明 确给出 
个 不同的 概率， 这些概 率分别 是在私 、尽、 … 、&中 一个 或多个 形成的 条件下 F 的条件 概率。 
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♦ 示例 4.40 

对 《  =  2 的 情况， 比 如示例 4.35 的 情况， 就只需 要给岀 3 个条件 概率。 因此， 正如之 前所做 
的 那样， 我们可 以断言 PROB (流感 I 发烧 )  =  0.6 且 PROB (流感 I 头痛 ）=  0.5。 然后， 可以加 上诸如 
PROB (流感 I 头痛 AND 发烧 )  =  0.9 这样的 信息。 

要避 免指定 指数数 量条 件概率 的情况 岀现， 有很多 种限制 可帮助 我们推 断或估 计概率 。一 
项简单 的限定 就是声 明某一 事件表 明另一 事件， 也就 是说， 第一个 事件是 第二个 事件的 子集。 
通常， 这 样的信 息能提 供一些 有用的 东西。 

♦ 示例 4.41 

假设 我们声 明只要 患者患 流感， 他 一定会 头痛。 那 么按图 4-18 来看， 可 以说区 域时口 e 是空 
的。 同时假 设只要 患者患 流感， 他 一定会 发烧。 那么图 4-18 中 的区域 c 也是 空的。 图 4-21 就表示 
依 据这两 项假设 简化后 的图 4- 1 8 。 


图 4-21 这里， “ 流感” 发生 就表示 “头 痛”和 “ 感冒” 都发生 

在 K  c 和 e 者卩为 0 的条 件下， 假设 PROB (流感 I 头痛 ） =  0.5 且 PROB (流 感丨 发烧 )  =  0.6， 就可以 
将 (4.13) 式和 (4.14) 式 改写为 

f  =  d  +  g 
f  =  \{g  +  h) 

因为 d 和 A 都至 少为 0 ， 所以第 一个等 式说明 f 彡 g  , 而第二 式说明 /彡 /  2 。 

再 来看看 同时有 发烧和 头痛症 状的条 件下患 流感的 概率， 即 prob( 流感 I 头痛 AND 发 烧)。 
该 条件概 率在图 4-18 或图 4-21 中都是 //(/  +幻 。因为 />3g/2 ，所以 可得出 //(/  +  g)>0.6 的 
结论。 也就 是说， 同 时有头 痛和发 烧症状 的患者 患流感 的概率 至少是 0.6。 

可以 将示例 4.41 推广 到任意 3 个事 件中一 个事件 意味着 另两个 事件的 情况。 假 设这些 事件分 
别 是五、 FmG, 那么 

prob^IG)  =  prob(F|G)  =  1 

也就 是说， 只要 G 发生， 五和 F 肯定会 发生。 进一 步假设 probCEIG)^， 且 prob(G|F)  =  ^， 贝 ij 有 

PROB(G|£'-and-F)  ^  max(p,q)  (4.21) 

如 果将图 4-21 中的 “流感 ，，、 “发 烧”、 “ 头痛” 分别 解释为 G、 五、 F， 就可 以看出 (4.21) 式的 
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推 理是成 立的。 那么有 />  = //(/  +  g  +  /0 且7  =  //(/+尽+  <^) 。 因为 J 和力 至少为 0， 所以 可得知 
户彡 /  /  (/  + 名） 且 7 彡 /  /  (/  + 尽） 。 而 /  /  (/  + 尽） 就是 PROB(G|E-and-F)。 因此， 该 条件概 率大于 
等于; ? 和 ^ 二者 中的较 大者。 

4.11.4  习题 

(1)  将 求和规 则和乘 积法则 推广到 两个以 上的事 件上。 也就 是说， 如果氏 、馬、 … 、&这 些事件 的概率 
分别是 内、仍、 … 、凡， 那么回 答下列 问题。 

(a)  «个 事件 中至少 有一件 发生的 概率是 多少？ 

(b)  n 个事 件全部 发生的 概率是 多少？ 

(2) * 如果 PROBCF1 灼 =;?， 那么以 下概率 分别是 多少？ 

(a)  PROB^  E ) 

(b)  PROB(  F  \E) 

(c)  PROB( F\E) 

回想 一下， 云是五 的互补 事件， 而戶是 F 的互补 事件。 

(3)  智 能建筑 控制会 试着预 测夜晚 是否会 “ 冷”， 也 就是说 晚间温 度至少 比白天 温度低 20 华氏度 （约 
6.7 摄 氏度） 的 情况。 如果 控制系 统知道 日落前 照在它 传感器 上的阳 光指数 为高， 那 么当晚 会冷的 
概 率就是 60%, 因 为显然 是没有 云层， 使 得热量 更容易 从地面 散逸。 而 且控制 系统还 知道， 如果 
日 落后一 小时内 温度的 变化至 少达到 5 度 （约 1.67 摄氏 度）， 那么 晚上会 冷的概 率就是 70%。 将这 
3 个事 件分别 表示为 “ 冷”、 “ 高”和 “ 降”， 并假设 PROB (高 )  =  0.4 且 PROB (降 )=  0_3。 

(a)  给岀 PROB (尚 -AND- 降) 的 上限和 下限。 

(b)  给岀 PROB (高 -OR- 降) 的 上限和 下限。 

(c)  假 设还知 道只要 晚上会 很冷， 那么 阳光传 感器的 读数就 会高， 而且 日落后 温度至 少下降 4 度， 
即 PROB (高 | 冷) 和 PROB (降 | 冷) 者卩是 1 。 给出 PROB (冷 | 高 -AND- 降) 的 上限和 下限。 

(d) ** 在与 (C) 小题相 同的假 设下， 给岀 PROB (冷 | 高 -OR- 降) 的 上限和 下限。 请 注意， 本题所 需的推 
理 在本节 中并未 提及。 

(4)  在 很多情 况下， 比 如示例 4.35 的 情况， 两个 或多个 事件会 相互强 化某一 结论。 也就 是说， 我们从 
直 觉上期 望不管 PROB (流感 | 头痛) 是 多少， 得 知患者 有发烧 及头痛 的症状 都能提 高流感 的概率 。假 
设如果 PROB(G| 五 -AND-F) 彡 PROB(G|i^) 就说 事件 五强化 了结论 G 中的 事件 F。 证明： 如果事 件五和 F 
在结论 G 中互相 强化， 那么有 (4.21) 式 成立。 也就 是说， 五 -AND-F 条件下 G 的概 率， 不小于 五条件 
下 G 的条件 概率与 F 条件下 G 的条 件概率 中的较 大者。 


概率推 理的其 他应用 

本 节中我 们已经 看到了 概率推 理的一 种重要 应用： 医疗 推理。 下 面还列 出了其 他一些 领域， 在这些 
领域 中有一 些相似 的概念 出现在 计算机 解决方 案中。 

口 系统 诊断。 设 备出现 故障， 表现出 一些不 正常的 行为。 例如， 计 算机屏 幕一片 空白， 
但硬 盘还在 运转。 导致 这一问 题 的原因 是 什么？ 

口 统筹性 规划。 给 定经济 条件的 概率， 比 如通货 膨账以 及某种 商品供 给的减 少等， 哪种战 
略的成 功概率 最大？ 

口智能 家电。 多种 高端家 电可以 使用概 率推理 （常 被称为 “模糊 逻辑” ） 为用 户作出 决定。 
例如， 洗 衣机可 以旋转 并称量 它盛装 的衣物 ，预测 最有可 能的面 料 （ 比如 免烫材 料或羊 
毛）， 并据 此调整 洗衣的 程序。 
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4.12 期望值 的计算 

通常， 实验 可能出 现的结 果都有 相关联 的值。 在本 节中， 我们 将利用 一些简 单的博 彩游戏 
作为 示例， 在这 些游戏 中赢钱 或输钱 取决于 实验的 结果。 而 在下一 节中， 我们还 将讨论 计算机 
科学 领域更 复杂的 示例， 即计 算某些 算法预 期运行 时间的 例子。 

假设 拥有某 个概率 空间， 以及 该空间 中点 上的收 益函数 /。 / 的期望 值就是 /0：)prob/(X) 上所 
有点 x 的和。 用 EV00 表示 该值， 当所 有点都 是等可 能时， 可 以通过 

(1)  将空间 中所有 X 对应的 /XJC) 相加， 然后 

(2)  将 和值除 以空间 中点的 数目， 

计算该 期望值 EV(/)。 该期望 值有时 被称为 均值， 而 且可以 被视作 “重 心”。 

♦ 示例 4.42 

假设该 概率空 间是表 示投一 颗公平 骰子的 结果的 6 个点， 这些点 会自然 而然地 被视为 1 到 6 
这些 整数。 设该 收益函 数为恒 等函数 /(/)  =  /, /=1、2、 …、 6, 那么 / 的期望 值就是 
EV(/)  =  (/ ⑴  +  /(2)  +  / ⑶  +  /(4)  +  /(5)  +  /⑹) /  6 
=(1  +  2  +  3  +  4  +  5  +  6)/6  =  21/6  =  3.5 
也就 是说， 一 颗骰子 投出点 数的期 望值是 3.5。 

再 看一个 例子， 设 g 是收 益函数 g(0  =  〖2。 那么， 对同样 的实验 —— 投一颗 骰子， 期望 
为 

EV  ⑻ =(12  +22  +32  +42  +52  +62)/6 

=  (1  +  4  +  9  +  16  +  25  +  36)/6  =  91/6  =  15.17 
非正式 地讲， 一颗骰 子掷出 点数平 方的期 望值是 15.17。 

♦ 示例 4.43 

再来考 虑示例 4.16 首次 引入的 掷骰子 游戏。 该游 戏的收 益规则 如下。 玩家对 某个数 字下注 1 
美元。 如 果该数 字出现 1 次或 多次， 那么 该玩家 就会得 到该数 字出现 次数那 么多的 美元。 如果该 
数字未 岀现， 那么 该玩家 就会输 掉他下 注的那 些钱。 

掷骰子 游戏的 概率空 间是由 1 到 6 这几个 数字的 三元组 构成的 216 个点。 这些点 表示掷 三颗骰 
子的 结果。 我们假 设玩家 下注的 数字是 1。 很明显 可知， 只要这 些骰子 都是公 平的， 该玩 家输赢 
钱数 的期望 值就与 他下注 的数字 无关。 

该游 戏的收 益函数 /■ 为下列 情况。 

(1)  g{i,j,k)  =  -\  , 如果 /、 7_ 和緒 卩不为 1。 也就 是说， 如果 没出现 1 点， 那 么玩家 将会输 掉他 
下 注的那 1 美元。 

(2)  g{ij,k)  =  \, 如果 /、 y 或灸中 刚好有 一个为 1。 

(3)  g(i,j,k)  =  2, 如果 /、 _/ 或 中刚 好有 两个为 1。 

(4)  g(i,j,k)  =  3, 如果 /、 _/ 和織为  1。 

接下来 的问题 就是求 g 在这 216 个点 上的平 均值。 因 为枚举 所有的 点会很 乏味， 所以 最好是 
先 试着分 别数出 4 种 不同结 果对应 的点的 数量。 

首先， 看看 3 颗骰子 都不是 1 点的情 况有多 少种。 如 果没有 1， 则每个 位置有 5 个数字 可供选 
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择， 所以这 就成了 4.2 节中 的分配 问题。 因此， 没有 1 的情 况共有 53  =125 种。 按照上 述的规 则⑴， 
这 125 个点 为收益 的和值 贡献了 -125。 

接着， 数一下 3 颗骰子 刚好有 一颗为 1 点的 情况有 多少。 1 可以 岀现在 3 个 位置中 的任何 一个。 
对每 个存放 1 的 位置， 剩 下两个 位置都 可以从 5 个 数字中 选择。 因此， 刚好 有一个 1 的 点共有 
3x5x5  =  75 个。 根 据规则 (2)， 这些点 为收益 贡献了 +75。 

而 3 颗骰 子都为 1 的 情况显 然只有 一种， 所以这 一概率 为收益 作出了 +3 的 贡献。 而 剩下的 
216-125-72-1=15 个点 肯定是 有两个 1 的， 所以根 据规则 (2)， 这些点 贡献了 +30 的 收益。 

最后， 将 4 类 点对应 的收益 值都加 起来， 并除 以概率 空间中 点的总 数目， 便能 得出该 游戏收 
益的期 望值， 因 此得到 

EV(/)  =  (-125  + 75  +  30  +  3)/216  =  -17/216  =  -0.079 
也就 是说， 玩 家平均 每下注 1 美 元就会 输掉约 8 美分。 这一结 果可能 会让人 吃惊， 因为游 戏表面 
上看起 来是一 次机会 平等的 打赌。 这 一点将 在本节 的习题 中加以 讨论。 

正 如示例 4.43 所表 示的， 有 时候根 据收益 函数的 值将概 率空间 中的点 分组也 更易于 计算。 
一般 而言， 假 设有某 个收益 函数为 / 的概率 空间， 而且 / 只产生 有限数 量的不 同值。 例如， 在示例 
4.43 中， 产生的 值只有 -1、 1、 2 和 3。 对 每个由 / 产生 的值 V， 设私是 由满足 /Oc)  =  v 的点 jc 组成的 
事件。 也就 是说， & 是让庐 生值 v 的点的 集合， 那么 

EV(/)  =  J>prob (艮）  (4.22) 

v 

在这些 点概率 相同的 一般情 况下， 设 ^是 事件氏 中点的 数目， 并设 《是 该概率 空间中 点的总 
数。 那么 probCEv) 就是 《v/«， 这样就 可以有 

EV(/)=f^v«v  In 


♦ 示例 4.44 

在示例 4.25 中， 我 们介绍 了基诺 游戏， 并计 算了在 5 个数字 里猜中 3 个的 概率。 现在 来计算 
一 下基诺 5 点 游戏收 益的期 望值。 回想 一下， 在 5 点游 戏中， 玩 家要从 1 到 80 中竞猜 5 个数字 。在 
游戏开 始后， 会从 1 到 80 这 些数字 中选取 20 个。 如果这 20 个数 字中有 3 个或 3 个以上 与玩家 所选的 
5 个数字 相同， 那么玩 家就中 奖了。 

不过， 收 益取决 于玩家 所选的 5 个数 字中猜 对了多 少个。 通常， 如 果下注 1 美元， 那 么玩家 
所选 5 个数 字中要 是猜中 3 个， 就可 以得到 2 美元， 也 就是有 1 美 元的净 收益。 如果他 所选的 5 个数 
字中有 4 个是 对的， 就 将得到 15 美元。 如果 5 个数字 全对， 就 能赢得 300 美元的 奖励。 如果 猜中的 
数 字不足 3 个， 就不 会得到 奖励， 并会输 掉他投 注的那 1 美元。 

在示例 4.25 中， 我们计 算岀 5 个数字 中猜对 3 个的 概率是 0.08394  ( 保留 4 位 有效数 字)。 同样， 
可以 计算出 5 个数字 中猜对 4 个的 概率是 0.01209, 而 5 个数字 全对的 概率是 0.0006449。 那么， 猜对 
的数 字不足 3 个的概 率就是 1 减 去这些 小数， 或者说 约为 0.90333。 少于 3 个、 对 3 个、 对 4 个和对 5 个 
的收益 分别为 -1、 +1、 +14 和 +299。 因此， 利用 (4.22) 式 就能得 出基诺 5 点游戏 的期望 收益， 就是 
0.90333  x  (-1)  +  0.08394x1  +  0.01209x14  +  0.0006449  x  299  =  -0.4573 
因此， 玩家平 均每在 该游戏 中投注 1 美元， 就大约 会损失 46 美分。 

习题 

(1) 证明： 如果掷 3 颗 骰子， 岀现 1 点 的预期 数量是 1/2。 
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BOOLEAN  find(int  x,  int  A  []  ,  int  n) 
{ 

int  i ; 

f or (i  =0;  i  <  n;  i++) 
if  (A  [i]  ==  x) 
return  TRUE; 
return  FALSE; 


(2)  * 只要有 1 就能 中奖， 而没有 1 就 不中， 那么， 为什 么习题 (1) 中 的事实 并不意 味着掷 骰子游 戏是一 
场机 会平等 的游戏 （即在 1 或任 一数字 上下注 的期望 收益为 0)  ? 

(3)  假设 在基诺 4 点游 戏中， 玩家 要竞猜 4 个 数字， 而回报 如下： 猜 中两个 数字， 得 1 美元 （即玩 家可以 
拿 回他下 注的那 1 美 元）； 猜中 3 个 数字， 得 4 美元；  4 个数字 全中， 得 50 美元。 那么 回报的 期望值 
是 多少？ 

(4)  假设 在基诺 6 点游戏 中回报 如下： 猜中 3 个， 得 1 美元； 猜中 4 个， 得 4 美元； 猜中 5 个， 得 25 美元； 
全中， 得 1000 美元。 那么回 报的期 望值是 多少？ 

(5)  假 设要玩 6 颗 骰子的 掷骰子 游戏。 玩 家会为 某个数 字下注 1 美元， 然 后掷岀 骰子。 他 选择的 数字每 
岀现 一次， 就 会得到 1 美元的 奖励。 例如， 如 果岀现 一次， 那么净 回报为 0; 如 果出现 两次， 则净 
回报为 +1， 等等。 那么这 是种公 平游戏 （即回 报的期 望值为 0) 吗？ 

(6)  * 根 据习题 (5) 表示 的回报 设计， 我们 可以对 标准形 式的掷 3 颗 骰子的 游戏的 回报规 则加以 改变， 让 
玩家 可以下 注一定 数额。 那么玩 家下注 的数字 岀现一 次他就 会得到 1 美元。 为 了使游 戏成为 一场公 
平 游戏， 玩家应 该下注 多少才 合适？ 

4.13 概率 在程序 设计中 的应用 

在本 节中， 我 们将考 虑概率 计算在 计算机 科学中 的两类 应用。 第一类 是对算 法期望 运行时 
间的 分析。 第二 类则是 一种常 被称为 “蒙特 卡洛” 算 法的新 算法， 因为这 种算法 具有不 正确的 
风险。 而 正如我 们将看 到的， 通过对 参数的 调整， 是 有可能 将蒙特 卡洛算 法正确 的概率 提高到 
令人满 意的程 度的， 只 不过没 法让正 确的概 率达到 1， 或者 说绝对 正确。 

4.13.1 概 率分析 

考虑以 下简单 问题。 假设有 一个含 〃个 整数的 数组， 并询问 某整数 JC 是否 为数组 A[0.  .n-l] 
中 的项。 图 4-22 所示的 算法就 是完成 这一工 作的。 请 注意， 它 会返回 BOOLEAN  (布 尔） 类型， 
在 1.6 节中已 经定义 过它是 int 类 型的， 而且 还定义 了常量 TRUE 和 FALSE, 它们分 别表示 1 和 0。 


图 4-22 在大小 为《 的数组 3 中找 岀元素 X 

第 (1) 到第 (3) 行会检 查数组 中的每 一项， 而且 如果在 数组中 找到; c， 就 立即终 止循环 并返回 
TRUE 作为 答案。 而如果 未找到 X， 则会 到达第 (4) 行 并返回 FALSE。 设循环 体以及 循环的 递增与 
测试 所花的 时间为 C。 设第 (4) 行 和循环 初始化 所花的 时间为 I 那 么如果 未找到 X， 图 4-22 所示函 
数的运 彳了 时间 就是 +  J ， 也就是 

不过， 假设 找到了 X， 那么图 4-22 所示 函数的 运行时 间又是 多少？ 显然， 越 早找到 jc， 所花 
的 时间就 越少。 如果 jc 因某种 原因一 定是在 A [0] 位置， 那么所 花的时 间就是 0 ⑴， 因为 循环只 
会迭代 一次。 不 过如果 x 总是 在末尾 或接近 末尾， 那 么所花 的时间 就会是 0(«)。 
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当然， 最坏 的情况 就是我 们在最 后一步 才找到 X， 所以 0(«) 就是 最坏情 况下的 平滑紧 上界。 
不过， 平 均情况 有没有 可能比 0(«) 好得 多呢？ 要解 决这一 问题， 就需 要定义 一个概 率空间 ，其 
中的点 都表示 x 可能在 的位置 。最简 单的假 设就是 x 会等 可能地 被放置 在数组 J 中的任 意一个 位置。 
如 果这样 的话， 该概率 空间就 有《 个点， 每个点 分别表 示数组 ^ 下标 的界限 0到《-1 这些 整数。 

接着 问题又 来了： 在该 概率空 间中， 图 4-22 所 示函数 运行时 间的期 望值是 多少？ 考 虑该空 
间 中的点 /， 河 以是从 0 到 《-1 中的任 一个。 如果 JC 是在 A  [i] 的 位置， 循环就 会迭代 /  +  1 次 。因 
此 运行时 间的上 界就是 d  +  d 。 不 过这一 界限略 有常数 d 的偏 差， 因为第 (4) 行 从未执 行过。 不过， 
这一 差异是 无关紧 要的， 因为在 将运行 时间转 换为大 0 表达 式时， ^ /就 会被消 去了。 

因 此我们 必须求 出函数 /⑺ =  ci+d 在 本概率 空间中 的期 望值。 将 /从0到 《 - 1 时的 d  d 相 
加， 并除 以点的 总数量 《， 就得到 

n-1 

EV(/)  =  (^ci  +  d)/  n  =  [cn{n-\)l  2  +  dn)/  n  =  c{n  - 1)  /  2  +  d 

i=0 

X 才较大 的《， 该表 达式的 值约为 c«/2。 因此， 0(«)就 是该期 望值的 平滑紧 上界。 也 就是说 ，在 
大约为 2 的 常数因 子内， 这 个期望 值与最 坏的情 况是相 同的。 这 一结果 从直觉 上讲是 成立的 。如 
果 x 等可能 地岀现 在数组 中的任 意位置 ，它 “通 常会” 在数组 的某一 半中， 因此 大约只 需要下 JC 
根本不 在数列 中或在 最后一 个元素 的位置 时一半 的工夫 即可。 

4.13.2 使 用概率 的算法 

图 4-22 所 示的算 法是确 定的， 它总 是对同 样的数 据进行 同样的 处理。 只有对 期望运 行时间 
的 分析利 用到了 概率的 计算。 几乎 我们遇 到的每 种算法 都是确 定的。 不过， 有一 些问题 靠虽不 
确 定但会 以某种 基本方 式从概 率空间 中进 行选择 的算法 能更好 地得到 解决。 从假 想的概 率空间 
中进行 这样的 选择并 不难， 方法就 是利用 4.9 节中介 绍的随 机数生 成器。 

一类 常见的 概率算 法是蒙 特卡洛 算法， 在每 次迭代 时会进 行随机 选择。 根据这 一选择 ，它 
既有 可能说 “ 真”， 就是保 证会得 到正确 答案的 情况， 也有 可能说 “ 我不知 道”， 就是正 确答案 
既 可能为 “真” 也 可能为 “假” 的 情况。 其可能 性如图 4-23 中的概 率空间 所示。 


图 4-23 蒙特卡 洛算法 一次迭 代可能 的结果 


174  第 4 章 组合 与概率 


在 答案为 真的条 件下， 算法说 “真” 的 概率是 也就 是说， 该概 率是图 4-23 中给 
定 a 或 6 的条件 下事件 a 的条件 概率。 只要 该概率 大于 0, 就可 以随便 迭代多 少次， 并迅速 减小失 
败的 概率。 通过 “失 败”， 我 们表示 了正确 答案为 “ 真”， 但 算法中 没有哪 次迭代 可以得 出这一 
结果。 

因 为每次 迭代都 是独立 实验， 如 果正确 答案是 “ 真”， 而且 要迭代 〃次， 那 么算法 从不说 “真” 
的 概率是 (1-妁、 只要 1-p 是严 格小于 1， 就知道 (1-奸 会随着 《 的增 长迅速 减小。 例如 ，如 
果 ；7  =  1/2 ， 那么 1-p 也是 1/2。 《  =  10 时， （0.5)” 大约是 1/1000( 见 4.2 节附 注栏内 容）， 《  =  20 时， 
这个 量约是 1/1  000  000, 等等。 《 每增加 10, 这 个量就 缩小约 1000 倍。 

蒙特卡 洛算法 会进行 《次 这样的 实验。 如果 任意实 验的答 案都为 “ 真”， 那么 算法的 答案也 
为 “ 真”。 如果 所有答 案都为 “ 假”， 那么 算法的 答案为 “ 假”。 因此， 

(1)  如 果正确 答案是 “ 假”， 该算 法一定 会回答 “ 假”。 

(2)  如 果正确 答案是 “ 真”， 该 算法有 (1-妁" 的概 率回答 “ 假”， 我们 可以假 设这一 概率非 
常小， 因为选 择了足 够大的 《 来使它 很小。 该算 法回答 “真” 的 概率是 1-(1 -奸， 这个 值很可 
能是非 常接近 1的。 

因此， 当正确 答案为 “假” 时是 不会失 败的， 而 当正确 答案为 “真” 时也几 乎很难 失败。 

♦ 示例 4.45 

本例要 讲一个 用蒙特 卡洛算 法解决 起来更 有效的 问题。 XYZ 计算 机公司 订购了 若干箱 芯片， 
这些 芯片应 该在岀 厂前都 经过测 试以确 保都是 良品。 不过， XYZ 公 司相信 某几箱 芯片在 岀厂前 
未经过 检测， 在这 种情况 下任一 芯片不 合格的 概率是 1/10。 XYZ 公司 有种简 单的解 决方法 ，就 
是 亲自检 测收到 的全部 芯片， 不 过这一 过程既 费钱又 费时。 如果一 箱中有 《块 芯片， 对该 箱芯片 
进行 测试所 花的时 间就是 。 

更佳的 方式是 利用蒙 特卡洛 算法。 从 每箱芯 片中随 机选岀 块进行 测试。 如果 某块芯 片是坏 
的， 就回答 “真” —— 表 示该箱 芯片在 岀厂前 未经过 测试， 不然这 块坏芯 片当时 就被检 岀了。 
如 果该芯 片是合 格的， 就回答 “ 我不知 道”， 并继 续检测 下一块 芯片。 如果 测试的 块芯 片全是 
良品， 那么 就声明 整箱芯 片都是 良品。 

就图 4-23 而言， 区域 c 就表 示从 一箱合 格芯片 中选出 芯片的 情况； 区域 6 是某 箱芯片 未经测 
试， 但芯 片凑巧 合格的 情况； 而区域 a 则是 某箱芯 片未经 测试， 而 且芯片 不合格 的情况 。之 前“如 
果某 箱芯片 未经测 试则有 1/10 的 芯片不 合格” 这 一假设 表示圆 形区域 a 的面 积是 封闭椭 圆区域 a 
和 办面积 的十分 之一。 

现 在来计 算一下 失败的 概率即 块芯 片全 合格， 但 该箱芯 片未经 测试。 在测试 完一块 芯片之 
后说 “我不 知道” 的概率 1-1/10  =  0.9 是。 因为 测试每 块芯片 的事件 都是独 立的， 所以对 A 块芯片 
都说“ 我不知 道”的 概率是 (0.9/。 假设 选择 h  131。 那么失 败的概 率就是 (0.9)131， 大约是 0.000001， 
或 者说是 百万分 之一。 也就 是说， 如果 某箱芯 片是合 格的， 就永不 会在该 箱中找 出不合 格的芯 
片， 所以 我们可 以笃定 该箱芯 片是合 格的。 如果 某箱芯 片未经 测试， 那么在 测试的 131 块 芯片中 
发现 不合格 芯片的 概率是 0.999999, 而且会 说该箱 芯片需 要全面 测试。 有 0.000001 的 概率是 ，某 
箱芯片 未经测 试但我 们还说 这是一 箱合格 芯片， 而且不 需要测 试该箱 芯片中 的其余 芯片。 

该算法 的运行 时间为 0(1)。 也就 是说， 测 试至多 131 块芯片 的事件 是个与 箱中所 装芯片 数《 
无关的 常量。 因此， 与更 直观的 测试全 部芯片 的算法 相比， 测试每 箱芯片 的时间 开销从 0(«) 降 
到了  0 ⑴， 代价是 每一百 万个未 测试的 箱子中 会岀错 一次。 
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此外， 通过改 变在得 出某箱 芯片合 格的结 论之前 所测试 芯片的 数量， 可以让 出错的 概率尽 
可 能小到 让我们 满意。 例如， 如果让 测试的 芯片数 翻番， 达到 262 块， 那么 失败的 概率就 成了之 
前的平 方了， 也就 是成了 万亿分 之一， 或 者说是 1(T12。 还有， 我们 能以更 高的失 败率为 代价节 
省常 数倍的 时间。 例如， 如果将 测试的 芯片数 减半， 减至每 箱测试 66 块 芯片， 那 么失败 率就会 
达到约 1000 箱未测 试芯片 中就有 一箱出 问题。 

4.13.3 习题 

(1) 377、 383 和 391 哪个是 质数？ 

(2)  假设 使用图 4-22 所示的 函数查 找元素 x, 不 过在项 赴找到 x 的 概率与 n-/ 成 正比。 也就 是说， 设想一 
个 具有咖 +  1)/2 个点 的概率 空间， 其中《 个点 表示 x 在 A [ 0 ] 的情况 ， n-1 个 点表示 x 在 A [  1  ] 的 情况, 
以此 类推， 直到 1 个 点表示 X 在 A[n-1] 的 情况。 该算法 在本概 率空间 中的期 望运行 时间是 多少？ 

(3)  1993 年， 美国 职业篮 球联赛 （NBA) 设立 了由未 参加季 后赛的 11 支球队 构成的 选秀乐 透区。 战绩 
最 差的球 队拿到 11 张 彩票， 次 差的球 队拿到 10 张， 以此 类推， 直到第 11 差的球 队拿到 1 张彩票 。然 
后 随机选 岀一张 彩票， 并 将第一 位选秀 权奖励 给该彩 票的所 有者。 那么， 被选中 的彩票 (的 所有者 
排名 （从 底部 算起） 的函数 /W 的期 望值是 多少？ 

(4)  **继 续习题 (3) 中描 述的乐 透机制 。 中 签的球 队会失 去所有 彩票， 接着 会选岀 代表第 二位选 秀权的 
彩票。 而此次 中签队 伍剩下 的彩票 都会被 收回， 接着 抽出第 三位选 秀权的 彩票。 那 么得到 第二位 
和第三 位选秀 权的队 伍排名 的期 望值是 多少？ 

(5) * 假设有 大小为 n 的数 组， 它可 能是有 序的， 也可 能是随 机装满 整数。 我们希 望能构 建某个 蒙特卡 
洛 算法， 若 它发现 该数组 是无序 时就说 “ 真”， 否 则就说 “ 我不知 道”。 通过 重复这 种测试 次， 
我们 很想知 道失败 的概率 不超过 24。 给岀 这样的 算法。 提示： 确保 测试是 相互独 立的。 这 里举个 
测试不 独立的 例子， 我们可 能测试 是否有 A[0]<A[1]， 并测试 A[1]<A[2]。 这两 项测试 是相互 
独 立的。 然而， 如果接 着测试 A[0]<A[2], 该测试 就不再 是独立 的了， 因为 知道前 两个关 系成立 
的 话就能 肯定第 三个关 系是成 立的。 

(6) ** 假设有 大小为 n, 且存 放着从 1 到 n 这一 范围内 整数的 数组。 这 些整数 可能在 选岀时 就是不 同的， 
也可能 是随机 独立选 岀的， 因 此数组 中可能 有相等 的项。 给 岀运行 时间为 0(士） 的蒙 特卡洛 算法， 
而且 该算法 随机装 人的数 字各不 相同的 概率最 多只有 1(T6。 


测试整 数是否 为质数 

尽管 示例 4.45 不 是个 真正的 程序， 但它 仍然展 示了一 种实用 的算法 原则， 而 且其实 是 衡量产 品可靠 
性的技 术的一 种真实 写照。 一些 有趣的 计算机 算法也 用到了 蒙 特卡洛 算法的 思路。 

排在 首位的 大概是 测试某 个数字 是否为 质数的 问题。 这一问 题并非 是无聊 的数论 问题。 事实 表明， 
计算 机安全 的诸多 中心 思想都 涉及知 道一个 非常大 的数为 质数。 粗略 地讲， 当使 用具有 《 .位数 字的 质数为 
信息加 密时， 如果要 在不知 道密钥 的情况 下解密 信息， 就需 要从几 乎所有 10" 种 可能中 猜测。 如果让 足 
够大， 就可 以确保 “ 攻破” 代码 要么需 要超乎 寻常的 运气， 要 么需要 远超可 达水平 的计算 时间。 

因此， 我们想 要有种 方式来 测试一 个非常 大的数 是否为 质数， 并 希望在 远小于 该质数 的值的 时间内 
完成 测试， 理想状 态下， 希 望测试 所花的 时间与 数字的 位数成 比例， 即 与数字 的对数 成比例 。检 测合数 
(非 质数） 的问题 似乎并 不难。 例如， 除 2 之外的 所有偶 数都是 合数， 所以看 起来已 经解决 一半问 题了。 
同 样地， 那 些能被 3 整除 的数各 位数字 之和要 能被 3 整除， 所 以可以 编写一 个稍慢 于 与数字 位数存 在线性 
关系的 递归算 法来测 试某数 能否被 3 整除。 然而， 对很 多数字 而言， 这 个问题 还是很 棘手。 例如， 377、 
383 和 391 中有 一个是 质数， 是哪一 个呢？ 
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有一种 测试合 数的蒙 特卡洛 算法。 在 每次迭 代时， 它 至少有 1/2 的概率 在被测 试的数 字为合 数时说 
“ 真”， 而且 如果该 数字为 质数， 它绝 对不说 “ 真”。 下面 要描述 的并非 确切的 算法， 不过 除了一 小部分 
合 数外， 它对大 部分合 数都起 作用。 完整的 算法已 经超出 本书要 讲的范 围了。 

该 算法的 依据是 费马小 定理， 该定理 是说， 如果; 7 为 质数， 且 是介于 1 和 /7-1 之 间的某 个整数 ，那 
么当 O^1 除以; 7 时， 余数为 1。 ① 此外， 除了 小部分 “坏” 合数 之外， 如果 a 是在 1 到； 7-1 之间 的整数 中随机 
选 出的， 那么， 1 除以; 7 时余 数不是 1 的概率 至少有 1/2。 例如， 假设尸 =  7， 那么 I6、 26、 …、 66 分别为 1、 
64、 729、 4096、 15625 和 46656。 它 们除以 7 的余 数全是 1。 不过, 如果； ?  =  6, 是个 合数， 那么 I5、 25、 …、 
25 分 别等于 1、 32、 243、 1024 和 3125, 它 们除以 6 的余数 分别是 1、 2、 3、 4、 5。 只有 20% 是 1。 

因此， 这种 测试某 数字; ? 是否为 质数的 “ 算法” 要从 1到/?-1 中独 立且随 机地选 出左个 整数。 如果对 
任何 选出的 a 来说， 都有 的余 数不是 1， 就说 p 为合 数， 否则 说它是 质数。 如果 没遇到 “坏” 合数， 
就可以 说失败 的概率 至多为 2'  因为 对某个 给定的 a 而言， 合数满 足测试 的概率 至少为 1/2。 如果让 々 为 40, 
那 么只有 万亿分 之一的 概率将 某个合 数当成 质数。 不过， 若 是要处 理那些 “坏” 合数， 就 需要更 复杂的 
测试。 该 测试仍 然是; ? 的位 数的多 项式， 就像 上述简 单测试 那样。 


4.14 小结 

大家 应该记 住以下 与计数 相关的 公式和 范例。 

□将 &个值 分配给 〃个对 象的方 法共有 V 种。 范例问 题是粉 刷《所 房屋， 其中每 所房屋 可从灸 
种颜色 中任选 其一。 

□ 排列 《个 不同的 项共有 《! 种不同 方式。 

□从 〃项中 选岀好 页， 并 为选岀 的好页 排序， 共有 《!0-幻! 种 不同的 方式。 范 例问题 是为有 ^ 
匹赛 马参加 的比赛 排定冠 亚季军 U  =  3  )。 

□从 《 个对象 中选岀 m 个， 不考 虑顺序 ，有 W 或者说 种 方式。 范例 问题是 

VmJ 

扑 克牌型 问题， 其中 n  =  52， m  =  5。 

□如果 想排列 其中存 在相同 项的〃 个项， 可 以按照 如下方 式计算 排列方 法数。 首先有 《! 。然 
后， 如果某 个值在 这《项 中出现 &>1 次， 就除以 M。 对 每个出 现超过 1 次的 值都进 行该除 
法 处理。 范 例问题 是计算 〃个字 母组成 的单词 的构词 方式， 其中 必须在 《!的 基础上 为单词 
中每个 出现次 ia>i 的字 母除以 汜。 

□ 如果要 将《 个相 同的对 象放人 m 个容 器， 共有 P  +  种方式 。范 例问 题是给 孩子分 苹果。 

\  m  ) 

□如 果要将 〃个对 象放人 m 个容 器， 而 其中有 一些对 象是不 同的， 那么 要依照 以下方 式计算 
分装方 法数。 首先有 (《  +  m- l)!/(m- 1)!。 然后， 如果有 一组有 Fh 相同 对象， 而且 A:>1 ， 
就除以 幻。 对每个 岀现次 数超过 1 次的值 都执行 该除法 处理。 范例问 题是将 若干种 水果分 
给孩 子们。 

除此 之外， 大家 还应该 记住有 关概率 的如下 要点。 


① 费马小 定理的 确切表 述为， 若 P 为质 数， 且 和 P 互质， 则当， 1 除以 P 时， 余 数恒为 1。 
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□概 率空 间由点 组成， 其中每 个点都 是某个 实验的 结果。 每个点 X 都 与一个 被称为 JC 的概率 
的非负 实数相 关联。 某个概 率空间 中各 点概率 之和是 1 。 

□ 事件 是概率 空间中 的点的 子集， 事 件的概 率是事 件中各 点概率 之和。 任一 事件的 概率都 
是在 0 到 1 之 间的。 

□ 如果所 有点都 是等可 能的， 那 么事件 五条件 下事件 F 的条件 概率就 是事件 五中也 在事件 F 
中的 点所占 的比例 。 

□ 如 果事件 F 条件 下事 件五的 条件概 率与事 件五本 身的概 率相等 ，就表 示事件 E 是独立 于事件 
F 的。 如果 事件五 是独立 于事件 F 的， 那 么事件 ^也 是独立 于事件 五的。 

□求 和规则 表明， 事 件五和 F 中有 一个 发生的 概率， 至 少是两 者概率 中的较 大者， 而 且不会 
大于 两者概 率之和 （如 果该 和大于 1， 则是 不大于 1)。 

□ 乘积规 则表明 ，某项 实验的 结果既 在事件 五中又 在事件 F 中的概 率不大 于五和 F 二者 概率中 
的较 小者， 并至少 是两者 概率之 和减去 1  (或 者如果 说该值 为负， 则是 至少为 0)。 

□ 最后， 要讲一 些本章 所介绍 的原则 在计算 机科学 领域的 应用。 

□ 对 于能处 理具有 “ 小于” 关系的 任意类 型数据 的排序 算法， 在为 《个 项排序 时都至 少需要 
与 《log« 成 正比的 时间。 

□ 长度为 《 的位 串共有 2” 个。 

□ 随机 数生成 器是生 成看似 独立实 验结果 的数字 序列的 程序， 虽然这 些数字 其实完 全是由 
该 程序确 定的。 

□ 概率推 理系统 需要一 种方式 表示由 若干事 件形成 的复合 事件的 概率。 求和 规则和 乘积法 
则有 时能帮 上忙。 我 们还了 解了其 他一些 为复合 事件的 概率设 定边界 的简化 假设。 

□ 蒙特 卡洛算 法使用 随机的 数字生 成期望 的结果 （ “ 真”） 或 者完全 不生成 结果。 通 常重复 
该 算法固 定次， 如果 没有哪 次重复 过程生 成答案 “ 真”， 就可 以得出 答案为 “假” 的 结论， 
从 而解决 手头的 问题。 通 过对重 复的次 数加以 选择， 可 以将错 误得出 结果为 “假” 的概 
率 调整到 低得令 自己 满意， 但不 能将岀 错的概 率降到 0。 
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在 很多情 况下， 信 息会具 有家谱 或组织 图中那 样的分 层结构 或嵌套 结构。 为 分层结 构建模 
的抽 象被称 为树， 而且这 种数据 结构是 计算机 科学领 域中最 为基础 的内容 之一。 它 是包括 Lisp 
在内 的数种 程序设 计语言 的底层 模型。 

本书 很多章 节中介 绍了不 同类型 的树。 例如， 在 1.3 节中， 我们 看到一 些计算 机系统 中的目 
录和 文件是 如何被 组织成 树形结 构的。 2.8 节中， 我们 利用树 展示了 如何递 归地分 割表， 并在归 
并排 序算法 中将其 重组。 3.7 节中， 我们 用树说 明了程 序中的 简单语 句是如 何一步 步组合 成更为 
复 杂的语 句的。 

5.1 本章主 要内容 

本章讨 论的 主要内 容 如下。 

□ 与树相 关的术 语和概 念 （  5.2 节)。 

□ 用 于在程 序中表 示树的 基础数 据结构 （5.3 节)。 

□ 对树 中节点 进行操 作的递 归算法 （  5. 4 节)。 

□ 结构 归纳法 —— Xf 树 进行归 纳证明 的 方法， 在这 种归纳 中要 用小树 逐渐构 建成更 大的树 
(  5.5 节)。 

□二 叉树， 树 的一种 变种， 每个 节点都 只有两 个子树 （  5.6 节)。 

□二 叉查 找树， 维 护一组 要进行 插入和 删除操 作的元 素的数 据结构 （5.7 节和 5.8 节)。 

□优 先级 队列是 一个可 以向其 中添加 元素的 集合， 不过每 次只能 从中删 除最大 的元素 。偏 
序树 （ partially  ordered  tree  ) 是为 了实现 优先级 队歹1 j 而引 人的 一种高 效数据 结构， 而利用 
被称为 “堆” 的 平衡偏 序树数 据结构 得到的 堆排序 算法， 在为 《 个元 素排序 时所花 的时间 
为 0{n\ogn)  o 

5.2 基 本术语 

树是 被称为 节点的 点与被 称为边 的线的 集合。 一条 边连接 着两个 不同的 节点， 要形 成树， 
这一系 列的节 点和边 必须满 足某些 属性， 图 5-1 就 是树的 示例。 

(1) 在 树中， 有一个 节点是 与众不 同的， 它被称 为根。 树的 根通常 画在其 顶端。 在图 5-1 中， 
根为 《i。 
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(2)  除根之 外的每 个节点 C 者卩 由一 条边连 接到某 个称为 C 的父 节点 的节点 /7。 我们也 将节点 C 称 
为; 9 的子 节点。 节 点的父 节点要 画在该 节点的 上方。 例如， 在图 5-1 中， A 就是 《2、 和叫 的父节 
点， 而叱是《5和《6的父节点。 换个 角度讲 ，化、 《3和《4 者卩是 《1 的子 节点， 而《5和叫是《2的子节点。 

(3)  如果从 除根之 外的任 一节点 《 开始， 移动到 《 的父 节点， 再到 《 的父节 点的父 节点， 以此 
类推， 最 终到达 树的根 节点， 就说 树是连 通的。 例如， 从《7 开始， 移动 到它的 父节点 《4, 然后 
移动到 《4 的父 节点， 也就是 根节点 《1。 


5.2.1 树的 等价递 归定义 

利用 由较小 树构成 较大树 的归纳 定义， 还 可以递 归地定 义树。 

依据。 单个节 点《 就是一 棵树， 我们说 〃就是 这棵单 节点树 的根。 

归纳。 设 r 是 一 个新 节点， 并设 L、 r2、 …、 7) 分别 是根为 q、 c2 、…、 的树。 这里要 求任何 
节点在 I 中的 出现次 数都不 会超过 一次， 而且 r 是个 “新” 节点， 一定 不会在 这些树 中出现 。可 
以按 照以下 规则用 〃和乃、 r2 、…、 且成 新的树 r。 

(a)  用 r 作为树 r 的根。 

(b)  从 r 添加 连接到 q、 c2、 …、 q 的边， 使得这 些节点 都成为 根节点 r 的子 节点。 还可 以将本 
步骤 视为让 r 成为 乃、 r2 、…、 7；. 些树 的根节 点的父 节点。 

♦ 示例 5.1 

我们可 以使用 这一递 归定义 构建图 5-1 中 的树， 而这一 构建过 程也验 证了图 5-1 中的 结构为 
树。 根 据依据 规则， 单 个节点 可被视 为树， 所以节 点《5和《6 本身都 是树。 接着， 可 以利用 归纳规 
则创建 新树， 其中 作为 根节点 〃， 而节点 就是树 乃， 节点 贝 U 是 树乃， 它们是 @ 一新根 节点的 
子 节点。 节点 0和0 分别是 《5和《6, 因 为它们 就是树 乃和乃 的根。 这样 一来， 我们就 得出如 下结构 


是树的 结论， 而且它 的根是 《2。 

同样， 根据依 据《7 就是一 棵树， 而且根 据归纳 规则， 如 下结构 
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是 一 '棵树 ，其中 是它 的根。 

节点 《3 本身 也是一 棵树。 最后， 如果 将节点 A 作为 r， 并将 《2、 《3和《4 视作刚 提到的 3 棵树的 
根， 就能创 建出图 5-1 中的 结构， 并 验证它 确实是 棵树。 

5.2.2 路径、 袓先 和子孙 

这 种父子 关系可 以自然 而然地 扩展为 祖先和 子孙的 关系。 粗略 地讲， 节点的 祖先就 是从节 
点 到其父 节点， 再到 其父节 点的父 节点， 以此 类推， 顺着这 样一条 唯一路 径找到 的那些 节点。 
严格 地讲， 节点本 身也是 其自身 的祖先 节点。 而子 孙关系 则是祖 先关系 的反向 关系， 像 父子关 
系这样 就是互 为反向 关系。 也就是 说， 当且仅 当节点 a 为节点 d 的 祖先节 点时， 节点 <3?才 是节点 a 
的子孙 节点。 

更严谨 地讲， 假设 mb  m2、 …、 是 树中的 一系列 节点， 其中 叫是叱 的父节 点， m2 是 m3 
的父 节点， 以此 类推， 直到 m^i 是 的父 节点。 那么 叫、 m2、 …、 就是该 树中从 叫到_ 的一 
条 路径。 路径的 长度为 灸-1， 比路径 上的节 点数小 1。 请 注意， 路径 可能是 由单个 节点构 成的， 
这种情 况下路 径的长 度就为 0。 

♦ 示例 5.2 

在图 5-1 中， 心、 《2、 是从 根节点 到节点 的一条 长度为 2 的 路径， 叫 是从 叫 到它 自己的 
一条 长度为 0 的 路径。 

如果 w!、 m2、 …、 m (是树 中 的一条 路径， 节点 爪〗就 是叫的 祖先， 而节点 m/测 是爪 丨的 子孙。 
如果 该路径 的长度 不小于 1， 那么 就是 m, 的真 祖先， 而 爪,则是叫 的真 子孙。 还要 记住， 路径 
长度 可能为 0, 在 这种情 况下， 我们就 可以得 出叫 是其 自身的 祖先也 是其自 身的子 孙这一 结论， 
虽 然它不 是自己 的真祖 先或真 子孙。 树 的根节 点是树 中每个 节点的 祖先， 而树中 每个节 点都是 
根 节点的 子孙。 

♦ 示例 5.3 

在图 5-1 中， 7 个节点 全都是 叫的 子孙， 而^ 是所有 节点的 祖先。 此 夕卜， 除《1 之 外的所 有节点 
都是 ~ 的真 子孙， 而叫 也是除 了它自 己之外 的所有 节点的 真祖先 。 化、 和叫都 是《5 的祖先 。 而 
«4 的子孙 有《4和《7。. 

具有 相同父 节点的 节点有 时也称 为兄弟 节点。 例如， 在图 5-1 中， 《2、 《3和《4 就互为 兄弟节 
点， 而《5和《6 互 为兄弟 节点。 

5.2.3 子树 

在树 r 中， 某 个节点 与 其所有 真子孙 （若 存在的 话）， 就 构成了 r 的子 树。 而节点 《 就是 
该子 树的根 节点。 请 注意， 子树 要满足 3 个条件 才能构 成树： 它有根 节点； 子树中 其他节 点在该 
子树中 都有唯 一的父 节点； 此外， 沿着 该子树 中任意 节点的 父节点 回溯， 最终都 能达到 该子树 
的根 节点。 

♦ 示例 5.4 

再 来看图 5-1， 节点 自己 就是棵 子树， 因为 除了 它自己 之外没 有别的 子孙。 而节点 化、 
«5和《6 也构成 了一棵 子树， 因为 这些节 点都是 《2 的 子孙。 不过， 在没 有节点 《5 的情 况下， 《2和《6 
两个节 点本身 是不能 构成子 树的。 最后， 图 5-1 中的 整棵树 都是它 自己的 子树， 其中根 节点为 叫。 
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5.2.4 叶子节 点和内 部节点 

树中 没有子 节点的 节点就 是叶子 节点。 内部节 点是指 至少有 一个子 节点的 节点。 因此 ，树 
中的 每个节 点要么 是叶子 节点， 要么 是内部 节点， 但不 可能同 时是这 两者。 树的 根节点 通常是 
内部 节点， 不过， 如 果该树 只由一 个节点 组成， 那么该 节点就 既是根 节点也 是叶子 节点。 

♦ 示例 5.5 

在图 5-1 中， 《5、 《6、 《3和/77 都 是叶子 节点， 而叫、 和 则是 内部 节点。 

5.2.5 高度 和深度 

在 树中， 节点 《 的高度 是指从 《到 叶子节 点最长 路径的 长度， 树 的高度 就是根 节点的 高度。 
而节点 《的 深度， 或者 说等级 （ level  )， 就是从 根节点 到《的 路径的 长度。 

♦ 示例 5.6 

在图 5-1 中， 节点 《1 的 高度为 2， 的 高度为 1， 而叶 子节点 的 高度为 I 其实， 任意 叶子节 
点的高 度都为 0。 图 5-1 中， 树的 高度为 2。 节点 ^的 深度为 0, 《2的 深度为 1， 《5的 深度为 2。 

5.2.6 有序树 

另外， 可以为 任意节 点的子 节点指 定从左 到右的 顺序。 例如， 图 5-1 中^ 的子 节点最 左边是 
n2, 然后是 《3, 再 然后是 《4。 这一 从左到 右的排 列方式 可以扩 展到为 树中的 所有节 点排列 顺序。 
如果 w 和 《 是兄弟 节点， 而 爪在《 的 左边， 那么 m 的子孙 全都在 《的 子孙的 左边。 

♦ 示例 5.7 

在图 5-1 中， 根为 的子 树中所 有节点 （也就 是《2、 《5和《6  ) 都 在根为 《3和《4的 子树所 有节点 
的 左边。 因此， 《2、 «3和《6 都在 《3、 «4和《7 的 左边。 

在树 中选择 任意两 个互不 存在祖 先关系 的节点 X 和 7。 由 于有着 “在 左边” 的 定义， JC 和 中 
其中 有一个 是在另 一个的 左边。 要分 辨哪个 在哪个 左边， 就要从 X 和: F 开始 沿着路 径向根 节点回 
溯。 而在某 一点， 可 能是根 节点， 也可能 是较低 的点， 这两 条路径 会在某 个如图 5-2 所示 的节点 
Z 相遇 。 从 JC 和 7 到 Z 的路径 分别要 经过两 个不同 的节点 爪和《， 可能有 m  =  x 且 （或） 《  =  >；， 但一 
定有 ， 否则 这两条 路径在 z 以下的 某个位 置就融 合了。 


©  © 


图 5-2 节点 x 在节点 y 的左边 
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假设 讲在《 的左边 ^ 那 么因为 X 在根为 m 的子 树中， 而 y 在根为 《 的子 树中， 所以有 X 在 j 的左 边。 
同样， 如果 讲在《 的 右边， 那么 jc 也就在 y 的右 边。 

♦ 示例 5.8 

因 为叶子 节点不 可能是 其他叶 子节点 的子孙 节点， 所以 所有叶 子节点 的顺序 都遵循 “从左 
起” 的 原则。 例如， 图 5-1 中所 有叶子 节点的 顺序是 

5.2.7 标号树 


标号树 （labelled  tree  ) 是 指树中 每个节 点都有 与之关 联的标 号或值 的树。 我 们可将 标号视 
为 与给定 节点相 关联的 信息。 标号可 以是很 简单的 内容， 比 如一个 整数； 也 可以是 复杂的 内容， 
比如 整个文 档中的 文本。 我们可 以改变 节点的 标号， 但不 能改变 节点的 名称。 

如果 节点的 名称不 重要， 就可 以用节 点的标 号来表 示它。 不过， 标号 并不总 是能为 节点提 
供唯一 名称， 因 为若干 个节点 可能有 着同一 标号。 因此， 很 多时候 在绘制 节点时 既会标 上其标 
号， 也会 标上其 名称。 下 面的一 些图展 示了标 号树的 概念， 并提供 了一些 示例。 

5.2.8 表 达式树 - 类重 要的树 

算术 表达式 可以用 标号树 表示， 而 且将表 达式直 观表示 为树往 往是非 常有意 义的。 其实， 
表达式 树 （ expression  tree  ) 顾名思 义就是 以统一 的方式 指定了 表达式 的操作 数与操 作符之 间的关 
联， 不论 这种关 联是表 达式中 括号的 放置需 要的， 还是所 涉及运 算符的 优先级 和结合 规则需 要的。 

回 想一下 2.6 节 中对表 达式的 讨论， 特别 是示例 2.17, 我 们在该 例中给 出了涉 及常见 算术运 
算符的 表达式 的递归 定义。 通过 对表达 式递归 定义的 模拟， 就可以 递归地 定义对 应的标 号树。 
大致 的概念 就是通 过将运 算符应 用到较 小表达 式上以 构成更 大的表 达式， 我们会 创建标 号为该 
运算 符的新 节点。 该 新节点 就成为 了表示 较大表 达式的 树的根 节点， 而它 的子节 点就是 表示较 
小 表达式 的树的 根 节点。 

例如， 可以按 照如下 方式， 定义 表示使 用二元 运算符 +、-、 X、 / 及一 元运算 符-的 算术表 
达 式的标 号树。 

依据。 单个原 子操作 数 （ 比 如一个 变量、 一 个整数 或一个 实数， 如 2.6 节介 绍的） 是表 达式， 
它的树 就是标 号为该 操作数 的一个 节点。 


(a)  {E+E2) 


(b)  (-E') 


图 5-3  (g  + 五2) 和- A 的表 达式树 

归纳。 如 果氏和 在这两 个表达 式分别 是由树 乃和巧表 示的， 那么 表达式 (私+ 馬) 就 是由图 5-3a 
所示 的树表 示的， 其 根节点 标号为 +。 该根 节点有 两个子 节点， 依次分 别是树 巧和厂 的根 节点。 
同样， 表达式 (氏- 佐)、 （芯1\五2)和(五1/五2)分别有着根节点标号-、 x 和 /， 且子 树均为 乃和乃 的表 
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达 式树。 最后， 可 以将一 元减号 运算符 应用到 表达式 氏上。 这里 引人了 标号为 -的根 节点， 而其 
唯一的 子节点 是乃 的根 节点， 表示 (-氏 ：) 的 树如图 5-3b 所示。 

♦ 示例 5.9 

在示例 2.17 中， 我们按 照依据 和递归 规则对 一系列 6 个表 达式的 递归构 建进行 过讨论 。图 
2- 16 列 出过的 这些表 达式分 别是： 


(i)  ^ 

(ii)  10 

(iii)  (JC+10) 


(iv)  (-(x  +  10)) 

(v)  7 

(vi)  (vx(-(x  +  10))) 


表达式 (i)、 ⑼ 和 (v) 都是 单个操 作数， 因此 依据规 则就说 明了图 5-4a、 图 5-4b、 图 5-4e 中的 
树 分别是 表示这 些表达 式的。 请 注意， 这些 树都是 由一个 节点组 成的， 节点 的名称 分别为 A 、 
«2和《5, 而 节点的 标号则 是圆圈 中的操 作数。 


(a) 表示 x 


图 5-4 表 达式树 的构建 


表达式 (iii) 是对 操作数 X 和 10 应用 操作符 + 得到 的， 所 以可以 看到图 5-4c 所示的 表示该 表达式 
的树 根节点 标号为 +， 而图 5-4a 和 5-4b 中树 的根节 点则作 为其子 节点。 表达式 (iv) 是对 表达式 (iii) 
应用 一元的 -， 所以图 5-4d 中表示 (-0  +  10)) 的树 在表示 0  +  10) 的树 的基础 之上， 多了标 号为- 
的根 节点。 最后， 图 5-4f 所示的 是表示 表达式 &x(-(x  +  10)》 的树， 其 根节点 标号为 X， 且其 
子 节点依 次为图 5-4e 和 5-4d 所示 树的根 节点。 

5.2.9  习题 

(1) 在图 5-5 中有一 棵树， 分 别指岀 如下内 容描述 的各是 什么。 

⑻ 该 树的根 节点。 
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(b)  该树 的叶子 节点。 

(c)  该树 的内部 节点。 

(d)  节点 6 的兄弟 节点。 

(e)  以节点 5 为根节 点的子 树^ 

(f)  节点 10 的 祖先。 

(g)  节点 10 的 子孙。 

(h)  节点 1 0 左边的 节点。 

(0 节点 10 右边的 节点。 

0) 该树中 的最长 路径。 

(k)  节点 3 的 高度。 

(l)  节点 13 的 深度。 

(m)  该树的 高度。 


(2)  树 中的叶 子节点 能否有 ⑻ 子孙； （b) 真 子孙？ 

(3)  证明： 在 树中， 任何叶 子节点 都不可 能是其 他叶子 节点的 祖先。 

(4) H 正明： 本节 中树的 两种定 义是等 价的。 提示： 要证 明由非 递归定 义生成 的树就 是根据 递归定 义生成 

的树， 就要利 用到对 树中节 点数的 归纳。 在相 反的方 向上， 要利 用对递 归定义 中递归 轮数的 归纳。 

(5)  假设 有由 4 个节点 r、 和 c 组成的 图。 节点 r 是个 孤立 的点， 没 有边连 通它。 其余 3 个节点 构成了 
一个 循环， 也就 是说， 有一条 边连通 a 和^ 有一条 边连通 6和0, 还 有一条 边连通 c 和 a。 为 何该图 
不 是树？ 

(6)  在 很多种 树中， 在 内部节 点和叶 子节点 （确切 地说是 这两种 节点的 标号） 之 间有着 明显的 区别。 
例如， 在 表达式 树中， 内 部节点 表示运 算符， 而 叶子节 点表示 原子操 作数。 给岀以 下各种 树的内 
部 节点和 叶子节 点间的 区别。 

(a)  如 1.3 节中 所述， 表示目 录结构 的树。 

(b)  如 2.8 节中 所述， 表示 归并排 序中表 的分割 和合并 的树。 

(c)  如 3.7 节中 所述， 表 示函数 的结构 的树。 

(7)  给岀表 示以下 表达式 的表达 式树。 请 注意， 出于习 惯性的 表达， 题目 中的表 达式省 略了多 余的括 
号， 大家首 先必须 利用运 算符的 优先级 和结合 性恢复 适当的 括号。 
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(a)  (x  + 1)  x  (x  -  j  +  4) 

(b) l  +  2  +  3  +  4  +  5  +  6 

(c)  9x8  +  7x6  +  5 

(8) 证明： 如果 x 和: ^ 是 有序树 中两个 不同的 节点， 那 么以下 条件中 一定刚 好有一 个是成 立的。 

⑻ x 是 y 的真 祖先。 

(b) x 是 y 的真 子孙。 

(c)  x 在^的 左边。 

(d)  x 在 的 右边。 

5.3 树的数 据结构 

很 多数据 结构可 用来表 示树。 应该 选用哪 种数据 结构， 取 决于想 要执行 的特定 操作。 举个 
简单的 例子， 如果 想要做 的只是 定位节 点的父 节点， 那么可 以用由 标号组 成的结 构体， 加上指 
向表示 节点之 父节点 的结构 体的指 针来表 示每个 节点。 

作 为一般 规则， 树 的节点 可以用 结构体 表示， 这 些结构 体中的 字段以 某种方 式将节 点链接 
在 一起， 这种 链接方 式与节 点在抽 象的树 中的连 接方式 类似， 而树 本身则 可由指 向表示 根节点 
的结 构体的 指针来 表示。 因此， 在 谈到对 树的表 示时， 我们 主要是 对节点 的表示 方式感 兴趣。 

表示 方式的 一种差 异体现 在表示 节点的 结构体 在计算 机内存 中的位 置上。 在 c 语言中 ，可 
以使用 标准库 stdlib.h 中的 malloc 函 数为表 示节点 的结构 体创建 空间， 这种情 况下， 节点 都“漂 
泊” 在内 存中， 并只 能通过 指针来 访问。 此外， 可以 创建由 结构体 组成的 数组， 并用数 组中的 
元素 来表示 节点。 这 里节点 还是根 据它们 在树中 的位置 链接起 来的， 不过 也可以 沿着数 组的顺 
序来访 问这些 节点。 因此， 可 以不沿 着树中 的路径 来访问 节点。 基 于数组 的表示 方式的 弊端， 
在 于没办 法创建 一棵节 点数超 过数组 所含元 素数量 的树。 接着， 我们会 假设这 些节点 都是由 
malloc 创 建的， 虽然在 树的大 小有限 制的情 况下， 由相 同类型 的结构 体组成 数组是 可行的 ，而 
且 有可能 是首选 方案。 

5.3.1 树的 指针数 组表示 

表示树 的最简 单方式 之一就 是为每 个节点 使用一 个由表 示节点 标号的 字段组 成的结 构体， 
后 面再跟 上指向 该节点 子节点 的指针 组成的 数组。 图 5-6 就 表示了 这样的 结构。 常量狀 是 该指针 
数组的 大小， 它表 示节点 可以具 有的最 大子节 点数， 这个量 就是分 支系数 ( branching  factor  )D 
某节点 对应数 组的第 / 个位 置含有 指向该 节点第 〖个子 节点的 指针， 不存在 的子节 点可用 NULL 指 
针 表 7K0 


info 

p0 

p' 

p- 

图 5-6 用 指针数 组表示 的节点 
在 C 语言 中， 该数据 结构可 以用如 下类型 声明来 表示。 

typedef  struct  NODE  *pN0DE; 
struct  NODE  { 
int  info; 

pNODE  children [BF] ; 


>； 
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在 这里， 字段 info 表示构 成节点 标号的 信息， 而 BF 则表 示分支 系数的 常量。 在本 章中我 
们还 将看到 该声明 的多个 变种。 

在这种 表示树 的数据 结构和 多数表 示树的 数据结 构中， 都将树 表示为 指向根 节点的 指针。 
因此， pNODE 还 是树的 类型。 其实， 可以在 pNODE 的 位置使 用类型 TREE, 而且在 5.6 节 开始介 
绍二叉 树时， 我 们将采 纳这一 约定。 不过， 现 在还是 要使用 pNODE 这个名 称代表 “指向 节点的 
指针” 类型， 因为 在某些 数据结 构中， 指 向节点 的指针 除了表 示树之 外还用 于其他 用途。 

指针 数组表 示使我 们能在 0(1) 的时 间内访 问任意 节点的 第汁子 节点。 然而， 当树中 只有少 
量 节点有 很多子 节点时 ，这种 表示会 非常浪 费空间 。在 这种 情况下 ，数 组中的 多数指 针都是 NULL。 


试 着记住 trie 

术语 trie  (单 词查 找树） 来源 于单词 retrieval  (检 索） 的中间 部分。 它本 来被人 们读作 tree, 
好在 现在常 见读法 已经将 其读为 发音有 区别的 try  了。 


♦ 示例 5.10 

树 可以用 来表示 一系列 单词， 其表 示方式 可以使 检查给 定字符 序列是 否为存 在的单 词变得 
非常有 效率。 在这 类称为 单词查 找树的 树中， 除了 根节点 之外， 每 个节点 都有与 之相关 联的字 
母。 由某 个节点 〃表 示的字 符串， 就是从 根节点 到《的 路径上 的字母 序列。 给 定一组 单词， 单词 
查找 树的节 点就是 那些表 示该集 合中某 个单词 的前 缀的字 符串。 节点 的标 号是由 表示该 节点的 
字母， 以及 表明从 根节点 到该节 点的字 母串能 否构成 完整单 词的布 尔值组 成的。 如 果能， 就用 
布尔值 1 表示， 如果 不能， 就用 0 表示。 ® 

例如， 假设 我们的 “ 字典” 是由 4 个单词 he、 hers、 his 和 she 组 成的。 这 些单词 的单词 
查找 树如图 5-7 所示。 要确 定单词 he 是 否在集 合中， 可以从 根节点 ~ 开始， 移动到 标号为 h 的子 
节点 《2， 再从节 点《2 移动到 标号为 e 的子 节点 《4。 因 为这些 节点都 岀现在 树中， 而且 的 标号中 
还有 1, 所以可 以得出 he 在该集 合中的 结论。 


% 

«9 


图 5-7 单词 he、 hers、 his 和 she 的单词 查找树 


①在 5.2 节中， 介 绍过的 标号都 只有一 个值。 不过， 值 可以是 任意类 型的， 而且 标号可 以是由 两个或 多个字 段组成 
的结 构体。 在本 例中， 标号有 一个字 段是个 字母， 而第 二个字 段则是 一个值 要么为 0 要么为 1 的 整数。 
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再 举一个 例子， 假设想 要确定 him 是否 在该集 合中。 可以从 根节点 开始沿 着路径 移动到 《2, 
再移 动到〃  5 ，这 是表 示前缀 hi 的 。不过 在节点 处找 不到对 应字母 m 的子 节点。 所以可 以得岀 him 
不 在该集 合中的 结论。 最后， 如果查 找单词 her, 那么可 以找出 从根节 点到节 点《7 的路径 。该 
节点 存在， 但标 号不含 1。 因此可 以得岀 her 不 在该集 合中的 结论， 虽然 以它为 真前缀 的单词 
hers 在该集 合中。 

单词查 找树中 众节点 的分支 系数就 等于构 成这些 单词的 字母表 中不同 字符的 数目。 例如， 
如果 不区分 大小写 字母， 而且 单词中 不含撇 号这样 的特殊 字符， 那么分 支系数 就等于 26。 包含 
两个 标号字 段的节 点的类 型可以 按照图 5-8 中所示 的方式 定义。 在数组 children 中， 可 以假设 
字母 a 是用 下标 0 表 示的， 而下标 1 表 示字母 b， 以此 类推。 


typedef  struct  NODE  *pNDDE; 
struct  NODE  { 
char  letter; 
int  isWord; 
pNODE  children [BF] ; 


图 5-8 字 母单词 查找树 的定义 

图 5-7 中抽象 形式的 单词查 找树可 以用图 5-9 所 示的数 据结构 表示。 通过展 示前两 个字段 
letter 和 isWord， 以 及数组 children 中那些 具有非 NULL 指针的 元素， 从而表 示节点 。在 
children 数 组中， 对 每个非 NULL 的 元素， 标记该 数组的 字母是 由指向 子节点 的指针 上方的 
项表 示的， 不过该 字母实 际上没 有岀现 在该结 构中。 请 注意， 根 节点的 letter 字段是 无关紧 
要的。 


图 5-9 图 5-7 中 所示单 词查找 树的数 据结构 
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5.3.2 树的 最左子 节点右 兄弟节 点表示 

使用指 针数组 表示节 点的空 间利用 率可能 很低， 因为 通常情 况下， 绝大多 数指针 都会是 
NULL。 图 5-9 显然就 是这种 情况， 其中 没有哪 个节点 有两个 以上非 NULL 指针。 事 实上， 如果想 
想这种 情况， 就会 发现， 在任 何基于 26 个字母 的字母 表的单 词查找 树中， 指针的 数量都 会是表 
示 节点的 指针的 数量的 26 倍。 因 为没有 哪个节 点会有 两个父 节点， 而 且根节 点是没 有父节 点的， 
所以 iV 个节点 中只有 7V-1 个非 NULL 的 指针， 也就 是说， 每 26 个指 针中只 有不到 1 个是有 用的。 

要克服 树的指 针数组 表示空 间利用 率低的 问题， 方法之 一就是 使用链 表来表 示节点 的子节 
点。 节 点对应 链表所 占据的 空间是 与该节 点子节 点的数 量成正 比的。 不过， 这种 表示方 式在时 
间上 要付岀 代价， 访问第 / 个子节 点所需 时间为 0(0 ， 因为在 到达第 / 个节 点之前 必须遍 历长度 
为卜 1 的 链表。 与之 相比， 使用 指针数 组表示 子节点 的话， 就 可以在 0(1) 时间内 到达第 汁子节 
点， 跟 / 完全 没有 关系。 

在树的 这种最 左子节 点右兄 弟节点 （leftmost-child-right-sibling) 表 示中， 要 为每个 节点放 
入一个 指向其 最左子 节点的 指针， 而节 点没有 指向它 其他子 节点的 指针。 要找 到节点 《的 第二个 
及后 续的子 节点， 可以 为这些 节点创 建一个 链表， 其 中每个 子节点 c 都指向 《 的子 节点中 紧挨在 c 
右侧的 那个， 该节 点称为 c 的右 兄弟 节点。 

♦ 示例 5.1 1 

在图 5-1 中， 《3是《2 的 右兄弟 节点， 《4是《3 的 右兄弟 节点， 没有 右兄弟 节点。 沿着 指向其 
最左 子节点 《2的 指针， 然后移 到指向 右兄 弟节点 的 指针， 接着再 到指向 右兄 弟节点 的指 
针， 就能找 岀^ 的子 节点。 接着就 会发现 一个为 NULL 的右兄 弟节点 指针， 并知道 ^ 没有 更多子 
节 点了。 

图 5-10 简要绘 岀了图 5-1 所示 树的最 左子节 点右兄 弟节点 表示。 向下的 箭头是 指最左 子节点 
链接， 而 向右的 箭头则 是右兄 弟节点 链接。 

© 


© ~~ ~~ <9 


© ~~ <5)  © 

图 5-10 图 5-1 中所 示树的 最左子 节点右 兄弟节 点表示 
在树 的最左 子节点 右兄弟 节点表 示中， 节 点是按 照如下 方式定 义的。 

typedef  struct  NODE  *pN0DE; 
struct  NODE  { 
int  info; 

pNODE  lef tmostChild,  right Sibling; 

>； 

info 字段存 放着与 节点相 关联的 标号， 而且 可以是 任一类 型的。 字段 lef  tmostChild 和 
rightsibling 指向 最左子 节点以 及相应 的右兄 弟节点 。 请 注意， 尽管 lef  tmostChild 给出 
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了 有关 该节点 自身的 信息， 但 节点的 rightsibling 字段才 是真正 表示该 节点父 节点全 部子节 
点 的链表 的那一 部分。 

♦ 示例 5.12 

现 在将图 5-7 中的 单词查 找树表 示成最 左子节 点右兄 弟节点 的形式 。首先 ，节点 的类型 如下。 

typedef  struct  NODE  *pN0DE; 
struct  NODE  { 
char  letter; 
int  isWord; 

pNODE  lef tmostChild ,  right Sibling; 

>；  —  、 

根 据示例 5.10 中描 述过的 模式， 前两个 字段是 表示信 息的。 图 5-7 中的 单词查 找树可 表示为 
图 5-11 所示 的数据 结构。 请 注意， 每个叶 子节点 都有为 NULL 的最左 子节点 指针， 而每个 最右子 
节点 都有为 NULL 的右兄 弟节点 指针。 


图 5-11 所示 单词查 找树的 最左子 节点右 兄弟节 点表示 

举个与 最左子 节点右 兄弟节 点表示 的用途 有关的 例子。 在图 5-12 中， 函数 seekdet,  n) 
会接 受字母 /e? 以及指 向节点 《 的指 针作为 参数。 它会返 回一个 指针， 指向 《 的子 节点中 letter 
字 段里有 k 的那 个子 节点， 如果 不存在 这样的 节点， 返回 的就是 NULL 指针。 如 果发现 /&， 或是 
检 查过所 有的子 节点， 就会 达到第 (6) 行， 并 跳出该 循环。 不管 是哪种 情况， c 都 存放着 正确的 
值， 如 果存在 存放了 M 的子 节点， 就是 指向该 节点的 指针， 如果不 存在， 就是 NULL 指针。 

请 注意， seek 函 数的运 行时间 与找到 所要找 的子节 点所必 须检查 的子节 点数成 正比， 如果 
根本 找不着 这样的 节点， 那么运 行时间 就与节 点《 的子节 点数成 正比。 与 之相比 的是， 如 果使用 
树的指 针数组 表示， seek 会 直接返 回字母 /以 对 应的数 组元素 的值， 花的 时间为 0 ⑴。 
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pNODE  seek(char  let ,  pNODE  n) 

{ 

c  =  n->lef tmostChild; 
while  (c  !=  NULL) 

if  (c->letter  ==  let) 
break; 
else 

c  =  c->right Sibling; 
return  c; 

} 


图 5-12 找到所 需字母 对应的 子节点 

5.3.3 父指针 

有些 时候， 在表 示节点 结构体 中包含 指向其 父节点 的指针 是很有 用的， 而根 节点的 父指针 
为 NULL。 例如， 示例 5. 12 中的 结构体 就成了 

typdef  struct  NODE  *pN0DE; 
struct  NODE  { 
char  letter; 
int  isWord; 

pNODE  leftmostChild,  right Sibling,  parent ; 

>；  — 

有了 这种结 构体， 就可 以确定 某给定 节点表 示的单 词了。 不断 回溯父 指针， 直到到 达根节 
点， 我们 就可以 确认根 节点， 因为只 有它的 parent 指针 的值是 NULL。 这一路 下来的 letter 
字段就 倒着拼 出了该 单词。 

5.3.4  习题 

(1)  对图 5-5 所 示树中 的每个 节点， 它们的 最左子 节点和 右兄弟 节点。 

(2)  请进 行下列 操作。 

(a)  将图 5-5 中的 树表示 为分支 系数为 3 的单 词查 找树。 

(b)  用最 左子节 点指针 和右兄 弟节点 指针来 表示图 5-5 中 的树。 

每种 表示方 式各需 要多少 字节的 内存？ 

(3)  考虑 英语中 单数人 称代词 的如下 集合： I、 my、 mine、 me、 you、 your、 yours、 he、 his、 him、 she、 
her、 hers。 对图 5-7 所 示的单 词查找 树加以 补充， 从 而将这 13 个单词 都包含 在内。 

(4)  假设 某部完 整的英 语词典 包含了 2  000  000 个 单词， 以及 1  000  000 个单 词前缀 —— 也 就是在 其尾部 
加上 0 个或 多个字 母便能 构成单 词的字 母串。 

(a)  这部词 典的单 词查找 树共有 多少个 节点？ 

(b)  假设使 用示例 5. 10 中的结 构体表 示节点 。 设指 针需要 4 字节， 且信 息字段 letter 和 isWord 各 
需要 1 字节， 那 么这棵 单词查 找树需 要多少 字节？ 

(C) 在 (b) 小题计 算 岀的空 间中， 有多 少是被 NULL 指针 占 据的？ 

(5)  假设 用示例 5.12 中的 结构体 （最 左子节 点右兄 弟节点 表示） 来表 示习题 (4) 中 描述的 词典。 假设指 
针和 信息字 段占据 的空间 与习题 (4) 的 (b) 小题中 的假设 相同， 那 么这种 表示中 这棵树 需要占 据多少 
空间？ 在 该空间 中 NULL 指 针占的 比例 又是 多少？ 

(6)  在 树中， 如果节 点0 同为 X 觀 V 的祖 先， 而且 C 的真子 孙中没 有一个 同时是 X 租 V 的祖 先， 那么就 说0是 
x 和 y 的最 低共同 祖先。 编写 程序， 使其 能找岀 给定的 树中任 一对节 点的最 低共同 祖先。 在 这种程 
序 中使用 什么数 据结构 表示树 比 较好？ 


\ ― /  \ ~ /  \ — /  \ — /  \ ― /  \ — / 
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树 的表示 的对比 


这里总 结了树 的指针 数组表 示 （ 单词查 找树） 与 最左子 节点右 兄弟节 点表示 的相对 优势。 

□ 指针 数组表 示带来 了更快 的子节 点访问 速度， 不管有 多少子 节点， 到达任 意子节 点都只 
需要 0(1) 的 时间。 

□最 左子节 点右兄 弟节点 表示占 用的空 间更少 。 以图 5-7 所示 的单词 查找树 为例， 如果使 
用指 针数组 表示， 那么 每个节 点含有 26 个 指针， 而如果 使用最 左子节 点右兄 弟节点 表示， 
每个 节点只 含两个 指针。 

□ 最 左子节 点右兄 弟节点 表示不 要求对 节点的 分支系 数加以 限制， 因 此可以 在不改 变数据 
结 构的前 提下表 示具有 任一分 支系数 的树。 然而， 如果 使用指 针数组 表示， 一旦 选择了 
数组的 大小， 就不 能 表示具 有更大 分支系 数的 树了。 


5.4 对树 的递归 


对树 进行的 递归操 作可以 自然清 晰地写 下来， 这样 的操作 数量之 多突显 了树的 实用性 。图 
5-13 展示了 接受树 的节点 《 作为参 数的递 归函数 的一般 形式。 F 首先会 执行一 些步骤 （也可 
能 不执行 任何步 骤）， 我们将 其表示 为操作 Jo。 接着， F 会对 《 的第一 个子节 点^ 调用 它自身 。在 
这次 递归调 用中， ^ 将会 “ 探索” 以^ 为根节 点的 子树， 进行 FXt 树进行 的任何 操作。 当 该调用 
返回 对节点 《的调 用时， 就会 执行另 一个操 作為。 接着 F 会在 《 的第二 个子节 点上被 调用， 引起对 
第二棵 子树的 探索， 以此 类推， 就是对 《 的操 作与在 《 的子 节点对 F 的调用 交替着 进行。 


(b) 对树进 行递归 的函数 八《) 的一 般形式 
图 5- 13 对树进 行递归 的函数 
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void  preorder (pNODE  n) 

{ 

pNODE  c;  /* 节点 n 的子 节点 */ 

printf  ("°/„c\n"  ,  n->nodeLabel) ; 
c  =  n->leftmost Child; 
while  (c  !=  NULL)  { 
preorder(c) ; 
c  =  c->right Sibling; 

}  」 


♦ 示例 5.13 

对树 进行简 单的递 归会产 生树的 节点标 号的前 序排列 ( preorder  listing)。 这 里的操 作為是 
打印 节点的 标号， 而其 他的操 作也无 非是些 “分 门别 类进行 记录” 的 操作， 这些 操作可 以让我 
们访 问给定 节点的 每个子 节点。 效果 就是， 如果 从根节 点开始 逆时针 环游访 问树中 的每个 节点， 
在第一 次遇到 这些 节点时 会 将它们 的 标号打 印 岀来。 请 注意， 只有 在第一 次访问 某 个节点 时才 
将其标 号打印 岀来。 这种环 游如图 5-14 中 的箭头 所示， 访 问这些 节点的 顺序是 
+  + 。 这 一 '节 点标 号序列 的前序 排列是 +<2 *  —bed 。 


假设 为表达 式中标 号为一 个字母 的节点 使用最 左子节 点右兄 弟节点 的表示 方式。 内 部节点 
的标号 是该节 点处的 算术运 算符， 而叶子 节点的 标号是 表示操 作数的 字母。 节点 和指向 节点的 
指 针可以 按照如 下方式 定义。 

typedef  struct  NODE  *pN0DE; 
struct  NODE  { 

char  nodeLabel ; 

pNODE  lef tmostChild,  right Sibling; 

>；  ~ 

函数 preorder 如图 5-15 所示。 在随 后的解 说中， 可以 很自然 地将指 向节点 的指针 看作节 
点 本身。 


\ - /  \ ― /  \ - /  \ ― / 、 - V 
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图 5-15 前序遍 历函数 
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操作 “為” 由图 5-15 所示 程序的 以下几 个部分 组成。 

(1)  在第 (1) 行， 打印节 点《的 标号； 

(2)  在第 (2) 行， 将 c 初始化 为《的 最左子 节点； 

(3)  在第 (3) 行， 执行 第一次 c  !=  NULL 的 测试。 

第 (2) 行 会初始 化一个 循环， 在该循 环中， c 会依 次成为 《的 每个子 节点。 请 注意， 如果 《是 
叶子 节点， 那么 C 就会 在第 (2) 行 被赋上 NULL 值。 

第 (3) 行到第 (5) 行的 while 循 环会一 直进行 ，直到 遍历完 《 的所有 子节点 。对 每个 子节点 而言， 
会在第 (4) 行对该 节点递 归地调 用函数 preorder， 接 着在第 (5) 行行 进到下 一个子 节点。 / 彡 1 的 
每个操 作為， 都 是由让 ^在《 的子节 点中移 动的第 (5) 行， 以及 测试是 否遍历 完子节 点的第 (3) 行组 
成的。 这些 操作都 只是分 门别类 地记录 而已， 与此 相比， 第一 行中的 操作為 完成的 是关键 步骤: 
打印 标号。 

对图 5-14 中 所示树 的根节 点调用 preorder 的一 系列事 件可总 结为图 5-16 所示 的情形 。每一 
行 左侧的 字符就 是在对 preorder  (n) 的调 用正在 被执行 时节点 《的 标号。 因为没 有哪两 个节点 
的 标号会 相同， 所以使 用节点 的标号 作为其 名称是 没有问 题的。 请 注意， 打 印岀的 字符是 
， 这 一 '打印 顺序就 和环游 的顺序 一 '样。 


U) 

调用  preorder(+) 

打印 + 

U) 

调用  preorder  (a) 

(a) 

打印 a 

(+) 

调用  preorder  (  *  ) 

(” 

打印 * 

(” 

调用  preorder  (-) 

(-) 

打印- 

(-) 

调用  preorder  (b) 

(b) 

打印 6 

(-) 

调用  preorder  {c) 

(c) 

打印 c 

(” 

调用  preorder  {d) 

(d) 

打印 d 

图 5-16 递 归函数 preorder 对图 5-14 所 7K 树进彳 了的 操作 


♦ 示例 5.14 

另 一种为 树中节 点排序 的常见 方式是 后序， 对应图 5-14 所 示树的 环游， 不过 会列出 最后访 
问的 节点， 而不是 第一次 访问的 节点。 例如， 在图 5-14 中， 后序排 列就是 a6c- “+ 。 

要生 成节点 的后序 排列， 需要 由最后 的操作 来完成 打印， 这样 才会在 对节点 的所有 子节点 
从 左起依 次调用 后序排 列函数 之后， 再 打印该 节点的 标号。 其他的 操作则 会初始 化穿越 子节点 
或 移动到 下一子 节点的 循环。 请 注意， 如果某 个节点 是叶子 节点， 那么要 做的只 有列出 标号， 
而不 存在任 何递归 调用。 

如果使 用示例 5.13 介 绍的节 点表示 方式， 就可以 通过图 5-17 中的递 归函数 postorder 构建 
后序 排列。 在对图 5-14 所示树 的根节 点调用 该函数 时的操 作如图 5-18 所示， 这 里使用 了与图 5-16 
中 一致的 节点名 称转换 方式。 
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调用  preorder(+) 

调用 preorder ⑷ 

打印 a 

调用  preorder(*) 

调用  preorder(-) 

调用  preorder(6) 
打印 6 

调用  preorder(c) 
打印 c 
打印 - 

调用 preorder ⑷ 
打印 d 
打印 * 

打印 + 


void  postorder (pNODE  n) 

{ 

pNODE  c;  /* 节点 n 的子 节点 */ 

c  =  n->lef tmostChild; 
while  (c  !=  NULL)  { 
postorder (c) ; 
c  =  c->rightSibling ; 

}  一 
printf ("%c\n" ，  n->nodeLabel) ; 

} 


图 5-18 递 归函数 postorder 对图 5-14 所 7K 树 进彳了 的操作 


♦ 示例 5.15 

接下来 的例子 要求我 们在对 子树进 行的所 有递归 调用中 执行一 些重大 操作。 假设给 定一棵 
表达 式树， 其 中以整 数为操 作数， 并使用 二元运 算符， 而且希 望得岀 该树表 示的表 达式的 数值。 
我们可 以通过 对该表 达式树 执行以 下递归 算法达 成这一 目的。 

依据。 对于一 个叶子 节点， 得 出该节 点的值 作为树 的值。 

归纳。 假 设要计 算以某 个节点 〃为 根节点 的子树 形成的 表达式 的值。 我们要 为以〃 的子节 
点 为根节 点的子 树所对 应的子 表达式 求值， 这 两个值 是节点 〃处的 运算符 对应的 操作数 的值。 
接着就 可以对 这两个 子树的 值应用 标号为 〃的运 算符， 这样就 得到了 以《 为根节 点的整 棵子树 
的值。 


前缀 表达式 和后缀 表达式 

如果以 前序列 出表达 式树的 标号， 就 得到了 给定表 达式的 前缀表 达式。 同样， 以后 序列出 
表 达式树 的标号 就得出 等价的 后缀表 达式。 而 普通概 念的表 达式， 就是二 元运算 符出现 在操作 
数之 间的表 达式， 称为 中缀表 达式。 例如， 图 5-14 中表达 式树的 中缀表 达式为 a  +  (6-c)*of 。 
正 如我们 在示例 5.13 和示例 5. 14 中 所见， 等价的 前缀表 达式是 +a*- ， 等价的 后缀表 达式是 
abc  一  d  *  +  0 


+) ^) +) *) -) 6) -) ^) -) *) ^) *) +) 
/IV  /IV  /IV  /IV  /IV  /IV  /IV  /IV  /IV  /IV  /IV  /IV  /V 


\ — /  \ — /  \ — /  \ — /  \ — / 
12  3  4  5 

/ — \  / — \  / — \  / - \  / - \ 
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有个 有关前 缀和后 缀概念 的有趣 事实， 只 要每个 运算符 都有唯 一的参 数数量 （比 如， 不能 
同时 使用一 元和二 元的减 号）， 那么就 算没有 括号， 也还是 能清楚 地将运 算符与 它们对 应的操 
作 数进行 分组。 

可以按 照如下 方式由 前缀表 达式构 建中缀 表达式 。 在前 缀表达 式中， 可以看 到运算 符后跟 
着 所需数 量的操 作数， 而 没有内 嵌的运 算符。 例如， 在前缀 表达式 -6a/ 中， 子表达 式-办 c 
就 是这样 一个字 符串， 因为这 个减号 像此例 中的所 有运算 符一样 是二元 的。 我们 可以用 新符号 
来代替 该子表 达式， 比如说 设^  =-〜 ， 接着再 重复这 一确定 运算符 后跟其 对应操 作数的 过程。 
在本 例中， 就 是要对 进行 处理。 在这 里可以 确定子 表达式 ， 并将 剩余的 字符串 
缩减为 +哕 。 现在剩 下的字 符串就 只有一 个运算 符和它 的操作 数了， 这样 就可以 转换为 中缀表 
达式 a  +  y  0 

现在 就可以 通过重 现这些 步骤来 重建中 缀表达 式中剩 下的部 分了。 可 以看到 子 表达式 
j  的中缀 形式为 ， 所以 可以将 a  +  j 中的少 替换为 ， 这样就 得到了  a  +  。 

请 注意， 一般 来说， 中 缀表达 式里是 需要括 号的， 虽然在 本例中 在为操 作数分 组时因 为* 的优 
先级比 + 高所 以省略 了这对 括号。 接着将 x  =  -6c 替换 为中缀 表达式 6-c ， 便可 得到最 终的表 
达式为 a  +  {{b-c)  *d) , 这与 图 5-14 中 的 树表示 的表达 式是相 同的。 

对后缀 表达式 来说， 可 以利用 相似的 算法。 唯一 的区别 就是在 分解后 缀表达 式时是 要看运 
算符 以及放 在它们 前面的 必要数 量的操 作数。 


我们将 指向节 点的指 针与节 点定义 如下。 


typedef  struct  NODE  *pN0DE; 
struct  NODE  { 
char  op; 
int  value ; 

pNODE  leftmostChild,  right Sibling; 

>；  ^ 

字段 op 存放 的要么 是表示 算术运 算符的 字符， 要么 是字符 i， 这里的 i 代表 integer  (整 数） ，并 
确 认节点 为叶子 节点。 如果 该节点 是叶子 节点， 那么 value 字段就 存放着 该节点 表示的 整数， 
在处理 内部节 点时是 用不上 value 的。 

这 一概念 允许运 算符具 有任意 数量的 参数， 虽然 我们在 编写代 码时会 出于简 便性的 考虑而 
假 设所有 运算符 都是二 元的。 代 码如图 5-19 所示。 

如 果节点 《 是叶子 节点， 第 (1) 行的 测试会 成功， 并在第 (2) 行返 回该叶 子节点 的整数 标号。 
如果该 节点不 是叶子 节点， 那么 会在第 (3) 行给 它的左 操作数 求值， 并在第 (4) 行给 它的右 操作数 
求值， 分 别将结 果存人 vail 和 val2。 联系第 (4) 行的 表示， 可 以注意 到节点 〃的第 二个子 节点就 
是节点 《 最左子 节点的 右兄弟 节点。 第 (5) 行到第 (9) 行形成 了一个 switchi 吾句， 在 该语句 中要决 
定《 处为 何种运 算符， 并为左 操作数 和右操 作数的 值应用 合适的 运算。 

例如， 考虑图 5-20 中所示 的表达 式树。 在图 5-21 中 我们还 会看到 在为该 表达式 求值时 ，每 
个 节点处 进行的 调用和 返回的 序列。 和以往 一样， 要利 用到节 点标号 是唯一 的这一 事实， 并用 
它们 的标号 来为其 命名。 
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int  eval(pNODE  n) 

{ 

int  vail,  val2;  /* 第 一棵子 树和第 二棵子 树的值 */ 

if  (n->op)  ==  '  i  '  )  /*  n  points  to  a  leaf  */ 
return  n->value; 

else  {/*  n 指向内 那节点 */ 

vail  =  eval(n->leftmostChild) ; 

val2  =  eval (n->lef tmostChild->rightSibling) ; 

switch  (n->op)  { 


case  '  + ' 

: return 

vail 

+ 

val2 ; 

case  ' - ' 

: return 

vail 

- 

val2; 

case  '  *  1 

return 

vail 

* 

val2; 

case  '  / ' 

: return 

vail 

/ 

val2; 

> 


图 5-19 为算 术表达 式求值 


调用  eval  ( +  ) 

(+) 

调用  eval  (5) 

(5) 

返回 5 

(+) 

调用  eval  (  *) 

(勹 

调用  eval(-) 

(-) 

调用  eval  (10) 

(10) 

返回 10 

(-) 

调用  eval  (3) 

(3) 

返回 j 

(-) 

返回 7 

(*) 

调用  eval  (2) 

(2) 

返回 2 

(*) 

返回 14 

(+) 

返回 15 

图 5-21 函数 eval 在图 5-20 所示树 的每个 节点 处进行 的操作 

4- 示例 5.16 

有时需 要确定 树中各 节点的 高度， 节 点的高 度可由 以下函 数递归 地定义 


, \ — /  、 — /  \ /  \ — ■ /  \ — /  \ — /  \ /  \ — ~ / 

2  3  4  5  6  7  8  9 

、 - - 、  / ^ \  - - ,  - - \ / - \ y - \  - - X  / \ 
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void  computeHt (pNODE  n) 

{ 

pNODE  c; 

n->height  =  0; 
c  =  n->lef tmostChild; 
while  (c  !=  NULL)  { 
computeHt (c) ; 

if  (c->height  >=  n->height) 
n->height  =  l+c->height ; 
c  =  c->rightSibling; 


依据。 叶子 节点的 高度为 i 

归纳。 内 部节点 的高度 要比其 子节点 最大的 高度大 1。 

可以将 这一定 义转换 成递归 程序， 该 程序会 将每个 节点的 高度计 算出来 存放到 height 字 
段中。 

依据。 在 叶子节 点处， 将高 度置为 0。 

归纳。 在内部 节点， 递 归地计 算子 节点的 高度， 找岀最 大值， 加上 1 ， 并 将结果 存储到 height 
字 段中。 

该程 序如图 5-22 所示， 假 设节点 是具有 如下形 式的结 构体。 

typedef  struct  NODE  *pN0DE; 
struct  NODE  { 
int  height ; 

pNODE  lef tmostChild,  rightSibling; 

>；  ~ 

computeHt 函数接 受指向 节点 的指针 作为 参数， 并 计算岀 该节点 的高度 存放到 he ight 字 
段中。 如果在 树的根 节点处 调用该 函数， 就会计 算该树 中所有 节点的 高度。 


图 5-22 计 算树中 所有节 点高度 的例程 

在第 (1) 行， 我们会 将《的 高度初 始化为 0。 如果 《 是叶子 节点， 计算 就算完 成了， 因为第 (3) 
行的 测试将 会立即 失败， 所 以算岀 的任何 叶子节 点的高 度都为 0。 第 (2) 行会将 c 置为 （指向 ） 《 
的最左 子节点 （的指 针)。 随 着不断 进行第 (3) 行至第 (7) 行的 循环， c 依次成 为《的 每个子 节点。 
第 (句 行会递 归地计 算 c 的高 度。 随着 计算的 进行， n->height 中的 值会比 目前最 高的子 节点高 
度大 1， 不 过如果 没有子 节点， 这个 值就是 0。 因此， 第 (5) 行和第 (6) 行在发 现比之 前的子 节点更 
高的子 节点后 会增加 〃的高 度。 此外， 对第 一个子 节点， 第 (5) 行 的测试 是肯定 会被满 足的， 而 
且我 们会将 n->height 置 为比第 一个子 节点的 高度大 1。 在 因为处 理完所 有子节 点而跳 出循环 
后， n->height 就会 被置为 比《 子节 点中的 最大 高度大 1 。 


程序 设计还 要更具 防御性 

图 5-19 中的 程序有 若干方 面表现 出了一 种粗心 的编程 风格， 这是 应该避 免的。 具体 来说， 
我们 在没有 首先检 查指针 是否为 NULL 的情 况下就 一路前 进了。 因此， 在第 （1) 行， 《是 可能为 
NULL 的。 我 们真应 该将程 序以如 下形式 开头。 


12  3  4  5  6  7 
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if  (n  !=  NULL)  /*  then  do  lines  (1)  to  (9)  */ 
else  /*  print  an  error  message  */ 

即便 《 不是 NULL, 在第 (3) 行 还是可 能看 到它的 lef tmostchild 字段是 NULL, 因 此应该 检测一 
下 n->lef tmostChild 是否为 NULL, 如 果是， 就打印 出错误 消息， 而且不 去调用 evalQ 同样， 
即便 《 的最左 子节点 存在， 该子节 点也可 能没有 右兄弟 节点， 所 以在第 (4) 行之 前还需 要检查 

n->lef tmostChild->rightSibling  !  =  NULL 

而且该 程序还 依赖于 树中节 点所含 信息是 正确的 这一假 设。 例如， 如 果某个 节点是 内部节 
点， 它的 标号为 二元运 算符， 而且 我们已 经假设 它具有 两个子 节点， 并且第 (3) 行和第 (4) 行的 
指针不 可能为 NULL。 不过， 运算 符标号 有可能 是不正 确的。 要 正确处 理这种 情形， 就 应该在 
switch 语句 中加入 default 情况， 以检 测意料 之外的 运算符 标号。 

作 为一般 规则， 对程 序的输 入永远 正确这 一假设 的依赖 过分简 单了； 在现 实中， “ 只要有 
可能 出错， 就肯定 会出错 。” 如果某 个程序 要使用 多次， 势 必会遇 到那些 形式不 符合程 序员预 
想的 数据。 在实践 中多么 小心都 不为过 。 盲目 地接受 NULL 指针， 或 假设输 入数据 总是正 确的， 
都 是常见 的编程 错误。 


习题 

(1)  编 写递归 程序， 计算用 最左节 点指针 和右兄 弟节点 指针表 示的树 的节点 数量。 

(2)  编 写递归 程序， 找到 树中具 有最大 标号的 节点。 假设 该树节 点的标 号都为 整数， 而 且是用 最左子 
节 点右兄 弟节点 指针表 示的。 

(3)  修改图 5-19 中的 程序， 使 其能处 理含有 一元减 号节点 的树。 

(4)  * 编 写递归 程序， 为最 左子节 点右兄 弟节点 指针表 示的树 计算左 右对的 数量。 所谓左 右对， 就是 
指节点 n 在 m 左侧这 样的一 对节点 n 和 m。 例如， 在图 5-20 中， 节点 5 就在标 号为* 、-、 10、 3 和 2 的 
节点 左侧， 而节点 10 在节点 3 和节点 2 左侧， 节点- 在节点 2 左侧。 因此， 该树 的左右 对共有 8 对。 
提示： 在 对节点 n 调用 编写的 递归函 数时， 要让该 函数返 回两个 部分， 以 n 为根 节点 的子树 中左右 
对的 数量， 还有以 n 为根 节点的 子树中 节点的 数量。 

(5)  以 (a) 前序和 (b) 后序 列岀图 5-5 中 （见 5.2 节的 习题） 树的 节点。 

(6)  对 如下各 表达式 

(i)  (x  +  y)*(x  +  z) 

(ii)  {{x- y)*z  +  {y  -w))*x 

(iii)  ((((a  +  6) +  c) +  e) *x  +  / 

完 成以下 操作： 

(a)  构 建表达 式树； 

(b)  写岀 等价的 前缀表 达式； 

(c)  写岀 等价的 后缀表 达式。 

(7)  将后缀 表达式 ab  +  c^de- If 转换为 (a) 中缀表 达式和 (b) 前缀表 达式。 

(8)  编写 函数， 使 其可以 “环游 ”树， 并在经 过节点 时打印 节点的 名称。 

(9)  图 5-17 中的后 序函数 进行的 操作為 、為 等各是 什么？ （  “操 作”就 是如图 5-13 所 指的那 些。） 

5.5 结构 归纳法 

第 2 章和第 3 章已 经介绍 了不少 有关整 数属性 的归纳 证明。 可以假 设某一 命题对 《 来说为 真， 


5.5 结构 归纳法  199 


if  (n->op)  ==  '  i  '  )  / *  n  指向叶 子节点  */ 
return  n->value; 
else  {/*  n 指向内 部节点 */ 

vail  =  eval(n->leftmostChild) ; 

val2  =  eval (n->lef tmostChild->rightSibling) ; 

switch  (n->op)  { 


case  1  +  '  ：  return  vail  +  val2 ; 

case  1  -  '  ：  return  vail  -  val2; 

case  '  *  '  ：  return  vail  *  val2 ; 

case  '  /  '  ：  return  vail  /  val2 ; 


或者假 设命题 对所有 小于等 于《的 整数都 成立， 并 使用该 归纳假 设证明 同一 命题对 《+ 1 也 成立。 
“ 结构归 纳法” 与 之类似 但不尽 相同， 适 用于证 明与树 有关的 属性。 结构归 纳法模 拟了对 树的递 
归 算法， 而且这 种形式 的归纳 法在想 要证明 一些与 树有关 的命题 时是最 易于使 用的。 

假设 要证明 命题双 r) 对 所有的 树讀卩 为真。 作为 依据， 要 证明对 r) 对 由单一 节点组 成的树 
t 为真。 而对归 纳部分 来说， 要假设 r 是一 棵以 r 为根 节点， 并有 子节点 Cl、 c2、 …、 q  (  k^i ) 
的树。 如图 5-23 所示， 设7\、 T2 、…、 7； 分 别是以 Cl、 c2 、…、 Q 为根 节点的 r 的子 树。 那 么归纳 
步 骤就是 假设况 ro、 况 r2)、 …、 况 K) 都 为真， 并证明 *s(r)。 如 果完成 了这一 证明， 就可 以得岀 
•s(r) 对 所有的 树讀卩 成立的 结论。 这 种形式 的论证 就叫作 结构归 纳法。 请 注意， 除了要 区分依 
据部分 （1 个 节点） 和归 纳步骤 （多于 1 个节 点）， 结构归 纳法不 会提及 树中具 体的节 点数。 

n 


图 5-23 树及 其子树 

♦ 示例 5.17 

一般情 况下， 在证 明对树 进行操 作的递 归程序 时会需 要用到 结构归 纳法。 举例 来说， 可以 
再次 看看图 5-19 所示的 eval 函数， 图 5-24 重现 了该函 数的函 数体。 只要 将指向 ”艮 节点的 指针赋 
值给 该函数 的参数 《， 就 可将该 函数应 用于树 r。 然后 它就会 计算由 m 示的 表达式 的值。 接下 
来要用 结构归 纳法证 明如下 命题。 


图 5-24 图 5-19 中 eval  (n) 函数的 函数体 

命题况 7)。 在对 扣 勺根节 点调用  eval 时， 返回 的值是 7 所表示 的算术 表达式 的值。 

依据。 作为 依据， r 由单 个节点 组成。 也就 是说， 参数 〃是一 个 （ 指向） 叶子节 点 （ 的指 针)。 
因 为在该 节点表 示操作 数时， op 字段 具有值 “i”， 图 5-24 中第 (1) 行的 测试会 成功， 第 (2) 行会返 
回 操作数 的值。 

归纳。 假 设节点 〃不是 （指 向） 叶 子节点 （的指 针)。 归 纳假设 就是， 识7')以《 的某 个子节 
点为根 节点的 每棵树 r 都为 真。 必 须使用 这一推 理证明 *s(r) 对以〃 为根节 点的树 7 戒立。 

因 为假设 运算符 都是二 元的， 所以 《 有两棵 子树。 根 据归纳 假设， 第 (3) 行和第 (4) 行 计算岀 
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n->height  =  0; 
c  =  n->lef tmostChild ; 
while  (c  !=  NULL)  { 
computeHt (c) ; 

if  (c->height  >=  n->height) 
n->height  =  l+c->height ; 
c  =  c->r ightSibling ; 


vail 和 val2 的值， 分另1 J 是左 子树和 右子树 的值。 图 5-25 展 7K 了 这两棵 子树， vail 存放着 乃的 
值， val2 存放着 r2 的值。 


图 5-25 调用 eva/ ⑻返回 7\和72 的值 的和 


如果 看看第 (5) 行到第 (9) 行的 switch 语句， 就会发 现不管 根节点 《 处出现 什么运 算符， 它都 
会被 应用到 vail 和 val2 这两个 值上。 例如， 如果根 节点处 存放着 +， 如图 5-25 所示， 那么第 (5) 
行 返回的 值就是 vall+val2 ， 正 如这应 该是树 7^和7"2对 应 表达式 的和。 现在 就完成 了归纳 步骤。 

因此可 以得出 *SCT) 对 所有的 表达式 树待卩 成立的 结论， eval 函 数能正 确地求 出表示 表达式 
的树 的值。 

♦ 示例 5.18 

现在 来考虑 一下图 5-22 中的 computeHt 函数， 图 5-26 重现 了该函 数的函 数体。 该函 数接受 
(指 向） 节点 《  ( 的 指针） 作为 参数， 并计算 〃的 高度。 我们 将通过 结构归 纳法证 明以下 命题。 


图 5-26 图 5-22 中 computeHt  (n) 函数的 函数体 

命题识 r)。 在对 指向树 7 裉节 点的指 针调用 computeHt 时， T 中每个 节点的 正确高 度都会 
被 存储在 该节点 的 height 字 段中。 

依据。 如果树 r 只有一 个节点 《， 那 么在图 5-26 中的第 (2) 行， c 会 被赋上 NULL 值， 因为 《没有 
子 节点。 因此， 第 (3) 行 的测试 会立即 失败， 而且 while 循环 的循环 体永远 都不会 执行。 因为第 
⑴ 行会将 n->height 置为 0  ( 这对叶 子节点 而言是 正确的 值）， 所以可 以得出 结论， 当 r 只有一 
个节 点时双 r) 成立。 

归纳。 现在假 设《 是有 多个节 点的树 7 柄根 节点， 那么 n 至少有 一个子 节点。 我 们可以 在归纳 
假设中 假定， 在第 (4) 行调用 computeHt  (c) 时， 以 c 为根节 点的子 树中每 个节点 （包括 c 本身） 
的 height 字段 中都被 装入了 正确的 高度。 现 在需要 证明， 第 (3) 行到第 (7) 行的 while 循 环可以 
正 确地将 n->height 置为比 n 的子 节点 的最大 高度大 1。 要 做到这 一点， 就需 要执行 另一次 归纳， 
这是嵌 套在该 结构归 纳法证 明过程 中的， 就像 是程序 中循环 嵌套在 另一个 循环中 那样。 该归纳 
使 用的是 “普 通的” 归纳法 而不是 结构归 纳法， 它 的命题 如下。 
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命题* S'G) 。 在第 (3) 到第 (7) 行的 循环执 行欲 :之 后， n->height 的值要 比《前/ 个子节 点的最 
大 高度大 1。 

依据。 依据是 ^  =  1 的情 况。 因为 n->height 在 循环外 —— 第⑴行 一 会 被置为 0, 并且肯 
定不 会有比 0 还小的 高度， 所以第 (5) 行的 测试 会得到 满足。 第 (6) 行就 会将 n->height 置 为比行 
的第 一个子 节点的 高度大 1 。 

归纳。 假设 为真。 也就 是说， 在 循环的 迭代欲 之后， n->height 会比 前汁子 节点的 
最大 高度大 1 。 如 果有第 /  + 1 个子 节点， 那么第 (3) 行的 测试会 成功， 而 且会第 /  + 1 次 执行循 环体。 
第 (5) 行的 测试 会将新 的高度 与之前 的最大 高度相 比较。 如果 新高度 c->height 比前 / 个高 度中 
最 大值加 1 要小， 就 不用对 n->height 进 行任何 改变。 这是 对的， 因为前 /  +  1 个 子节点 的最大 
高 度是可 以与前 / 个子 节点 的最大 高度相 同的。 不过， 如果新 的高度 比之前 的最大 值大， 第 (5) 
行的测 试就会 成功， 这样 n->height 就 会被置 为比第 f  +  1 个子 节点的 高度大 1， 这是正 确的。 

现在可 以回到 结构归 纳了。 当第 (3) 行的 测试失 败时， 就已经 考虑过 《的 所有子 节点了 。内 
层的 归纳* S'(0 说明， 当 子节点 的总数 为埘， n->height 要比 《各 子节点 的最大 高度大 1。 这就 
是 《 的正确 高度。 将归 纳假设 5 应用于 《 的各子 节点， 就得到 结论： 正 确的高 度已经 存储到 每个子 
节点的 height 字 段中。 因为已 经得知 《 的高 度也已 经正确 地计算 岀来， 所以可 以得岀 结论： r 
中 所有节 点都被 赋上了 它们正 确的高 度值。 

现在已 经完成 了结构 归纳法 的归纳 步骤， 并得出 结论： 对每棵 树调用 computeHt 都 可以正 
确 地计算 树中每 个节点 的 高度。 


结构 归纳法 的模板 

下面 简述了 进行正 确的结 构归纳 法 证明的 过程。 

(1)  指定 要证明 的命题 *s(r) ， 其中 r 是一 棵树。 

(2)  证明 依据， 也就 是只要 r 是一棵 单节点 的树， 5(7) 就 为真。 

(3)  建 立归纳 步骤， 设 r 是以 r 为根 节点 的树， 而且 有灸彡 1 棵 子树， 分钠为 7\、 T2、 …、 Tk。 
表 示假定 有归纳 假设， 即双 7；) 对每 棵子树 2；.  (/  =  1、 2、 …、 灸） 都 为真。 

(4)  证明在 (3) 中 提到的 假设下 *s(r) 为真。 


5.5.1 结构归 纳法为 何有效 

要说明 结构归 纳法为 何是一 种有效 的证明 方法， 其原因 与普通 归纳法 有效的 原因类 似：如 
果结论 为假， 那么就 会有个 最小的 反例， 而且 该反例 既有可 能违背 依据， 也 可能违 背归纳 过程。 
也就 是说， 假设有 命题负 r)， 已经 证明了 它的依 据和结 构归纳 步骤， 而 存在一 棵树或 多棵树 
可以让 s 为假。 设 rQ 是可以 让 Mr。) 为假的 这样一 棵树， 并设 r。 与让 s 为假 的任一 棵树的 节点一 
样少。 

有两种 情况。 第 一种， 假设 rQ 由单个 节点 组成。 那 么根据 依据， 有釗 r。） 为真， 所以 这种情 
况 不可能 发生。 

现在就 只剩下 ％ 有 多个节 点的情 况了， 这 里假设 rQ 有 m 个节 点， 那么 r。 就是由 根节点 r 与一 
个 或多个 子节点 构成。 设以 这些子 节点为 根的树 分别是 乃、 r2、 …、 Tko 这里可 以声明 乃、 &、•••、 
八的节 点数均 不超过 m-  1。 因为如 果某棵 树 （ 假如是 rz.) 的节点 数达到 或超过 m, 那么由 r, •(可 
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能还 有其他 子树） 和 根节点 r 组成的 rQ 就至 少会有 m+1 个 节点。 这与 刚好有 m 个节 点的 假设是 
矛 盾的。 

因为 2\、 r2、 …、 K 这些子 树的节 点数都 不超过 m-1， 所以就 可以知 道这些 树都不 能违背 A 
因为 选择了 r。 是让 ^ 为假 的最小 子树。 因此 可知双 7；)、 从 r2)、 …、 负 7；) 都 为真。 而假 设已经 
得 到证明 的归纳 步骤说 明了负 r。） 也 为真， 这 样又与 r。 违背 ^ 的假设 产生了 矛盾。 

在考 虑完这 两种可 能的情 况后， 我们就 知道： 不 管一棵 树只有 一个节 点还是 有多个 节点， 
% 都不 可能是 ^ 的 例外。 因为 51  是 没有例 外的， 所以双 r)  一定对 所有的 树讀卩 为真。 

5.5.2  习题 

(1)  通过 结构 归纳法 证明： 

(a)  图 5-15 的 前序遍 历函数 会以前 序打印 岀树的 标号； 

(b)  图 5-17 中 的后序 函数会 以后序 列出标 号。 

(2)  * 假 设分支 系数为 6 的单 词查找 树是用 具有图 5-6 中所示 格式的 节点表 示的。 用结构 归纳法 证明： 
如果树 馆《个 节点， 那么 它的节 点中有 1  +  (6- 1>1NULL 指针。 那么， 共有 多少非 NULL 指针？ 

(3)  *节 点的度 是指节 点所具 有的子 节点的 数目。 ® 用结构 归纳法 证明： 在任 意树： T 中， 节点的 数目都 
要比节 点的度 之和大 1。 

(4)  * 用结构 归纳法 证明： 在 任意树 T 中， 叶子节 点的数 目都要 比具有 右兄弟 节点的 节点的 数目大 1。 

(5)  * 用结构 归纳法 证明： 在任意 用最左 子节点 右兄弟 节点的 数据结 构表示 的树: T 中， NULL 指 针的数 
目 都要比 节点的 数目大 1。 

(6) *在5.2 节 开始的 部分， 我们给 岀了树 的递归 定义和 非递归 定义。 使 用结构 归纳法 证明： 每 棵以递 
归方式 定义的 树在非 递归定 义下也 是同样 的树。 

⑺ ** 证 明习题 (6) 的逆 命题： 每 棵以非 递归方 式定义 的树在 以递归 方式定 义时也 是相同 的树。 


树的归 纳的谬 误形式 

我们常 常会想 着对树 的节点 数进行 归纳， 就是假 设命题 对具有 n 个节 点的树 成立， 并 证明它 对具有 
n  +  1 个节点 的树也 成立。 如 果不够 谨慎， 就很 可能作 出这种 荒谬的 证明。 

在第 2 章 中对整 数进行 归纳证 明时， 我 们提出 了一种 合理的 方法， 就是 试着用 Sin) 证明命 题5(«  +  1) ， 
并 称这种 方法为 “后 靠”。 有时候 有人可 能把这 一过程 看作从 开始 并证明 5(«  +  1) , 称这 种方法 为“前 
推”。 在整 数的情 况下， 这基 本上是 相同的 意思。 不过， 对树 而言， 我们不 能先假 设命题 对具有 《 个节点 
的树 成立， 并 在某个 位置加 上一个 节点， 然 后就说 证明了 结 果对所 有具有 n  +  \ 个节点 的树都 成立。 

例如 ，声明 S(n) :  “所 有具有 n 个节点 的树都 有一条 长度为 的 路径。 7  =  1 的依 据情况 显然为 
真。 在 错误的 “归纳 ”中， 可 能会作 出如下 论证： “假 设有一 棵具有 《 个节 点的树 7\ 它有 一条长 n-1 的 
路径， 假 如说是 到节点 v 的。 给 v 加上 子节点 w。 现在就 有了一 棵具有 《.  +  1 个节点 的树， 而且 它有一 条长度 
为 n 的路 径， 这样就 证明了 归纳步 骤。” 

当然， 上述论 证是谬 误的， 因为 它没有 证明结 果对所 有具有 《  +  1 个节点 的树都 为真， 而只是 证明了 
对 选出的 一些树 为真。 正确的 证明不 能是从 《 .个节 点 “ 前推” 到 n  +  1 个 节点， 因为我 们不会 从这一 过程得 
出所 有可能 的树。 我们必 须从任 意具有 n  +  1 个 节点的 树开始 “后 靠”， 小 心地选 出一个 节点， 并 将其删 
除， 从而 得到一 棵具有 n 个节点 的树。 


①分 支系数 和度是 相关的 概念， 但它 们是不 同的， 分 支系数 是树中 各节点 度的最 大值。 
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5.6 二叉树 


本 节展现 了另一 种树 —— 二 叉树， 它和 5.2 节 介绍的 “ 普通” 树是不 同的。 在二 叉树中 ，节 
点 最多有 两个子 节点， 而且并 不是自 然地从 左起为 子节点 计数， 而是 有两个 “ 槽”， 其中 一个用 
来存 放左子 节点， 另一个 用来存 放右子 节点。 这 两个槽 中可能 有一个 为空， 也可能 两个都 为空。 


图 5-27 两 棵各只 有两个 节点的 二叉树 


♦ 示例 5.19 

图 5-27 展示了 两棵二 叉树。 它们均 以叫 为根 节点。 第一 棵树以 为左子 节点， 且没有 右子节 
点。 而 第二棵 树则没 有左子 节点， 叱是其 根节点 的右子 节点。 在 这两棵 树中， 都是既 没有左 
子节 点也没 有右子 节点。 它们均 为只有 两个节 点的二 叉树。 

接 下来将 按照如 下方式 递归地 定义二 叉树。 

依据。 空 树是二 叉树。 

归纳。 如果 r 是节 点， 而且 乃和乃 都是二 叉树， 那么以 r 为根 节点， 乃 为左 子树， 乃为 右子树 
可 以组成 一棵二 叉树， 如图 5-28 所示。 也就 是说， 乃 的根节 点就是 r 的左子 节点， 除非 乃是 空树， 
因 为这种 情况下 r 没有 左子 节点。 同 样地， r2 的根 节点是 r 的右子 节点， 除非 巧是 空树， 因 为这种 
情况下 r 没有 右子 节点。 


图 5-28 二叉 树的递 归定义 


5.6.1 二叉树 的术语 

5.2 节 引人的 路径、 祖 先和子 孙的概 念也适 用于二 叉树。 也就 是说， 左 子节点 和右子 节点都 
归为 “子节 点”。 路径 仍然是 节点 m〗、 W2、 …、 叫按照 /^是叫 （ /  =  1,2, …， 灸-1  ) 的 (左 或右) 
子节 点的方 式串联 起来的 序列。 这 条路径 称为从 叫到叫 的 路径。 灸=1 的情况 也是可 以的， 这样 
的 话路径 上就只 有一个 节点。 

如果 某个节 点存在 两个子 节点， 那 么这两 个子节 点就互 为兄弟 节点。 叶子节 点是指 既没有 
左子节 点也没 有右子 节点的 节点， 还可以 认为叶 子节点 是左子 树和右 子树都 为空树 的节点 。内 
部节 点则指 不是叶 子节点 的 节点。 
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路 径长度 、高 度和深 度的定 义与普 通的树 是完全 相同的 。二叉 树路径 的长度 要比节 点数小 1， 
也就 是说， 长 度就是 路径上 父子关 系对的 数量。 节点 〃的高 度是指 《 到其子 孙叶子 节点最 长路径 
的 长度。 二 叉树的 高度就 是其根 节点的 高度。 节点 《 的深度 是指从 根节点 到《的 路径的 长度。 

♦ 示例 5.20 

图 5-29 展示 了具有 3 个节点 的二叉 树可能 形成的 5 种 形状。 在图 5-29 所 示的每 棵二叉 树中， 
都是 ^的 子孙， 并 存在从 ~到《3的 路径。 在每棵 树中都 是叶子 节点， 而《2 在中 间那棵 树中是 
叶子 节点， 在其他 4 棵树中 都是内 部 节点。 

«3在 每棵树 中的高 度都为 0,  ~ 除了在 中间那 棵树的 高度为 1 之外， 在 其他树 中的高 度都为 2。 
每棵 树的高 度都与 ~ 在那 棵树中 的高度 一致。 节点 除了 在 中间那 棵树的 深度为 1 之外， 在其他 
树中深 度都为 2。 


(普 通） 树和 二叉树 的区别 

尽管二 叉树要 求区分 子节点 是左子 节点还 是右子 节点， 但 普通的 树却没 有这样 的限制 ，理 
解 这一点 是很重 要的。 也 就是说 ， 二叉 树不仅 是节点 的子节 点数全 都不多 于两个 的树。 图 5-27 
中 的两棵 树不仅 是互不 相同， 而且与 由根 节点及 根节点 的子节 点组成 的如下 普通树 也没有 
关系。 


这里 还存在 一个技 术上的 区别。 尽管树 的定义 中表示 树至少 有一个 节点， 但二叉 树中可 以存在 
空树， 也 就是没 有节点 的树。 


5.6.2 二叉 树的数 据结构 

有 一种很 自然的 方式可 以用于 表示二 叉树。 节点可 以表示 为具有 leftChild 和 
rightChild 这两 个分别 指向左 子节点 和右子 节点的 字段的 记录。 出 现在这 两个字 段中的 NULL 
指针 就表示 对应的 左子树 或右子 树为空 —— 也 就是说 节点 没有左 子节点 或右子 节点。 

二叉树 可以表 示为指 向其根 节点的 指针。 空 二叉树 很自然 地就被 表示为 NULL。 因此， 如下 
类型 定义就 表示二 叉树。 
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typedef  struct  NODE  *TREE; 
struct  NODE  { 

TREE  leftChild,  right Child; 

>； 

在 这里， “指向 节点的 指针” 类 型名为 TREE， 因 为这一 类型最 常见的 用途就 是表示 树和子 
树。 我们既 可以将 leftChild 和 rightChild 字段 解释为 指向子 节点的 指针， 也 可以将 其解释 
为指 向 左右子 树本身 的 指针。 

此外， 还可以 为表示 NODE 的结 构体添 加标号 字段， 并 （或） 可 以添加 指向父 节点的 指针。 
请 注意， 父指针 的类型 是+NODE， 或是 TREE 的等价 类型。 

5.6.3 对 二叉树 的递归 


有很 多针对 二叉树 的自然 算法可 以通过 递归的 方式来 定义。 这 里递归 的模式 要比图 5-13 中 
普通 树的递 归模式 更具局 限性， 因为操 作只能 发生在 左子树 被探索 之前、 两 棵子树 的探索 之间， 
或 是两棵 子树都 探索完 之后。 对 二叉树 进行递 归的模 式如图 5-30 所示。 


{ 

action  Ao ; 

对左子 树的递 归调用 ； 
action  A\ ; 

对右子 树的递 归调用 ； 
action  ; 

> 


图 5-30 二 叉树递 归算法 的模板 


♦ 示例 5.21 

具有二 元运算 符的表 达式树 可以用 二叉树 表示。 这些 二叉树 是很特 殊的， 因 为节点 要么有 
两个子 节点， 要么 就没有 子节点 （一般 而言， 二叉树 可以有 只有一 个子节 点的节 点）。 例如 ，图 
5-3 1 重 现了图 5-14 中 的表达 式树， 这 棵表达 式树可 以 视作二 叉树。 


假设 为节点 和树定 义如下 类型: 


typedef  struct  NODE  *TREE ; 
struct  NODE  { 

char  nodeLabel; 

TREE  leftChild,  rightChild; 


}； 
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void  preorder (TREE  t) 

{ 

if  (t  !=  NULL)  { 

printf  (,,0/0c\nn ， t - >nodeLabel) ; 
preorder (t->leftChild) ; 
preorder (t->rightChild) ; 


那么图 5-32 就 展示了 用来以 前序列 出二叉 树7中 各节 点标号 的递归 函数。 


图 5-32 

该函 数的行 为与图 5-15 中 用于处 理普通 树的同 名函数 相似。 主 要区别 在于， 当图 5-32 中的 
函 数遇到 叶子节 点时， 它会对 （缺 失的） 左 右子节 点调用 自身。 这 些调用 会立即 返回， 因为当 ^ 
为 NULL 时， 整个 函数体 只有第 (1) 行的测 试会执 行。 如 果将图 5-32 中的第 (3) 行和第 (4) 行替 换为: 

(3)  if  (t->leftChild  !=  NULL)  preorder (t->leftChild) ; 

(4)  if  (t->rightChild  !=  NULL)  preorder (t->rightChild) ; 

就可 以多节 省一些 调用。 不过， 这样就 不能防 止其他 函数以 NULL 为参 数调用 preorder 了 。因 
此， 为 了安全 起见， 要 保留第 (1) 行的 测试。 

5.6.4  习题 

(1)  编写 函数， 使其 能打印 岀二叉 树节点 （标 号） 的中序 排列。 假 设这些 节点是 用如本 节所描 述那样 
具有 左子节 点和右 子节点 指针的 记录表 示的。 

(2)  编写 函数， 使其 接受二 叉表达 式树， 并 打印岀 它所表 示的表 达式带 有全部 括号的 版本。 假 设这里 
使用了 与习题 (1) 相同 的数据 结构。 

(3) *重 复习题 (2)， 但 只打印 所需的 括号， 假设这 里使用 的是常 用的算 术运算 符优先 级和结 合性。 

(4)  编写 函数， 使其能 得出二 叉树的 高度。 

(5)  如 果二叉 树的节 点同时 具有左 子节点 和右子 节点， 那么就 说该节 点是完 全的。 用结构 归纳法 证明: 
二叉 树中完 全节点 的数量 ，要 比叶 子节点 的 数量少 1 。 

(6)  假设用 左子节 点右子 节点记 录类型 表示二 叉树。 用结构 归纳法 证明： NULL 指 针的数 量要比 节点的 
数量大 1。 

(7)  ** 树可以 用来表 示递归 调用。 每个 节点都 表示某 个函数 F 的一 次递归 调用， 而其 子节点 则表示 F 
执行的 调用。 在本 题中， 要 考虑对 4.5 节 给岀的 进行 递归， 根据 的递归 关系是 


-1 


每 次调用 都可以 用一棵 二叉树 表示。 如果某 个节点 对应着  的计算 ， 


， 而右子 节点表 示卜_1 


而且不 属于依 据情况 （ 《  =  0和《  =  «  )， 那么 其左 子节点 就表示 

、 m  J 

如果 该节点 表示的 是依据 情况， 那么它 就既没 有左子 节点， 也没 有右子 节点。 
(a) 通 过结构 归纳法 证明： 根节点 对应着 f  的二 叉树 刚好有 2p^-l 个节点 ^ 


(b) 利用 ⑻证明 ： n 对应递 归算法 的运行 事件是 0  " 


请 注意， 该 运行时 间因此 也就是 


0(2") , 不过后 者是平 滑但非 紧边界 c 
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中 序遍历 


除了 二叉树 的前序 排列和 后序排 列外， 二叉 树就只 有一种 有意义 的节点 排列方 式了。 在二叉 树中， 
探索完 左子树 之后， 而在探 索右子 树之前 （ 即图 5-30 中操作 乃的 位置） 列 出每个 节点， 这样 就形成 了二叉 
树节点 的中序 排列。 例如， 在图 5-31 所示的 树中， 中序排 列就是 a +6- 。 

对表 示表达 式的二 叉树进 行前序 遍历， 得到的 就是该 表达式 的前缀 形式， 对同样 的树进 行后序 遍历， 
则 会得到 表达式 的后缀 形式。 而中序 遍历则 几乎会 产生原 始的， 或 者说是 中缀形 式的表 达式， 不 过该表 
达式是 没有括 号的。 也 就是说 ， 图 5-31 中的树 表示的 表达式 a  +  (6-c)*d 与其中 序排列 a+6- 是不 
同的， 差别 只是后 者中少 了必要 的括号 而已。 

要确 保所需 的括号 出现， 可以 为所有 的运算 符加上 括号。 在 这种修 改后的 中序遍 历中， 在探 索左子 
树 之前执 行的操 作為， 会检查 节点的 标号是 否为运 算符， 而且， 如果是 运算符 的话， 就会 打印“ （” ，也 
就是左 括号。 同 样地， 如果标 号是运 算符， 探索 完两棵 子树后 执行的 操作為 就会打 印右括 号“） ”。 将该 
规则应 用于图 5-31 所示的 二叉树 ，得 到的结 果会是 +  , 这 就有了  b-c 两 侧一对 必要的 括号， 

以 及两对 多余的 括号。 


对 二叉树 进行结 构归纳 

与 普通树 一样， 结 构归纳 法也适 用于二 叉树。 其实 还可以 使用更 简单的 模式， 这种模 式下的 依据是 
空树。 下面 就是 对这一 技巧的 总结。 

(1)  指定要 证明的 命题* s(r) , 其中： r 是一 棵二 叉树。 

(2)  证明 依据， 即 证明若 r 是空 树， 则双乃 为真。 

(3)  设 r 是以 r 为根 节点， 并以 71 和心 为子 树的二 叉树， 以此构 建归纳 步骤。 声明假 定有归 纳假设 ，即 
5*(71) 和 5*(79 为真。 

(4)  在 (3) 中提到 的假设 下证明 S(T) 为真。 


5.7 二叉 查找树 

各种 计算机 程序中 有一种 同样的 活动， 就 是维护 这样一 组值， 用户 希望： 

(1)  向 这组值 中插人 元素； 

(2)  从 这组值 中删除 元素； 

(3)  查找某 元素， 看看 它是否 在这组 值中。 

例 子之一 是英语 词典， 我们时 不时地 会往里 面插人 一些新 单词， 比如 fax; 删除 一些不 再使用 
的 单词， 比如 aegilops; 或者 是要查 找一串 字母， 看看其 是否为 单词， 例如， 这是拼 写检查 
器程 序的一 部分。 

因为这 个例子 是我们 非常熟 悉的， 所 以不管 其具体 用途是 什么， 只要 是可以 按照上 述定义 
对 其执行 插入、 删除和 查找操 作的一 组值， 都叫作 词典。 再举个 词典的 例子， 某 教授可 能要记 
录 选修某 课程学 生的花 名册。 偶尔会 有学生 被加入 这门课 程 （ 插 入）， 或是退 岀该课 程 （ 删 除）， 
或是需 要弄清 某个学 生是否 选修了 该课程 （查 找)。 
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二叉 查找树 这种带 标号的 二叉树 是实现 词典的 一个好 方法。 假 设节点 的标号 是按照 “ 小于” 
顺序 （我 们会将 其写作 <  ) 从一组 值中选 岀的。 例子包 括具有 一般小 于顺序 的实数 或整数 ，或 
是有着 用  <  表示的 词典顺 序或字 母表顺 序的字 符串。 

二叉 查找树 （ Binary  Search  Tree,  BST  ) 是一种 带标号 的的二 叉树， 以 下属性 对这种 二叉树 
的每个 节点: t 都成 立： x 的左子 树中所 有节点 的标号 都小于 x 的标 号， 而其右 子树中 所有节 点的标 
号 都大于 x 的标 号。 这种属 性被称 为二叉 查找树 属性。 

♦ 示例 5.22 

图 5-33 展 示了对 应 着集合 ！  Hairy ， Bashful ,  Grumpy ,  Sleepy,  Sleazy,  Happy  | 
的 二叉查 找树， 其中  < 顺序 是词典 顺序。 请 注意， 根节点 左子树 在词典 顺序上 都小于 Hairy, 
而右子 树在字 典顺序 上都大 于它。 这一 属性对 该树中 的每个 节点都 成立。 


Hairy 


Happy 

图 5-33 具有 6 个 带字符 串标号 的节点 的二叉 查找树 


5.7.1 用 二叉查 找树实 现词典 

我们 可以将 二叉查 找树表 示为任 何带标 号的二 叉树。 例如， 可以按 如下形 式定义 NODE 类型。 

typedef  struct  NODE  *TREE; 
struct  NODE  { 

ETYPE  element ; 

TREE  leftChild,  rightChild; 

>；  " 

二叉 查找树 被表示 为指向 二叉查 找树根 节点的 指针。 元素 的类型 ETYPE 应该 得到合 理的设 
置。 在 本章所 有的程 序中， 都 将假设 ETYPE 为 int 类型， 从 而使元 素间的 比较可 以直接 用算术 
比较 运算符 <、 ==和> 完成。 在涉 及词典 顺序比 较的例 子中， 可 以假设 程序中 的比较 由诸如 2.2 
节中讨 论过的 印 和琪这 样的比 较函数 完成。 


5.7.2 二叉 查找树 中元素 的查找 

假设 想在由 二叉 查找树 m 示 的某 词典中 查找某 个元素 X。 如果将 JC 与 r 的根 节点处 的 元素加 
以 比较， 就 可以利 用二叉 查找树 属性快 速找到 X， 或确定 JC 没有 岀现。 如果 JC 在根节 点处， 就完成 
了 查找。 否则， 如果 X 比根 节点 处的元 素小， X 就只可 能在左 子树中 被找到 （根据 二叉查 找树属 


5.7  二叉 查找树  209 


BOOLEAN  lookup (ETYPE  x,  TREE  T) 

{ 

if  (T  ==  NULL) 
return  FALSE ; 
else  if  (x  ==  T->element) 
return  TRUE; 

else  if  (x  <  T->element) 

return  lookup (x,  T->lef tChild) ; 
else  /*  x  一定 是大于  T->element  */ 
return  lookup (x,  T->rightChild) ; 


♦ 示例 5.23 

假设想 要在图 5-33 的二叉 查找树 中查找 Grumpy 。 将 Grumpy 与根节 点处的 Hairy 相 比较， 
发现 Grumpy 在词典 顺序上 要先于 Ha i ry , 因 此要对 左子树 调用 lookup。 

左子 树的根 节点是 Bashful ， 而将该 标号与 Grumpy 相比， 发 现前者 要先于 后者。 因此要 
对 Bashful 的右子 树递归 地调用 lookup^ 现 在发现 Grumpy 在这 一子树 的根节 点处， 并返回 
TRUE。 这些步 骤是由 具有图 5-34 模式的 词典顺 序比较 函数执 行的。 


性）， 而如果 x 比根 节点 处的元 素大， x 就只 可能出 现在右 子树中 （还 是因为 二叉查 找树属 性)。 
也就 是说， 可以 通过以 下递归 算法表 示查找 操作。 

依据。 如果树 r 是空 树， 那么 X 未出 现。 如果树 空， 而且 X 在根 节点， 那么 x 就出 现了。 
归纳。 如果扣 _空而1 未在 根节点 位置， 设: F 是穴 艮节 点处的 元素。 如果 x<y， 则只在 根节点 
的 左子树 中查找 X; 如果 x>>；， 则只在 7 的 右子树 中查找 x。 二叉查 找树属 性保证 x 不可能 出现在 
没有 查找的 那棵子 树中。 


抽象数 据类型 

诸如 插入、 删除 和查找 这种可 能 对一组 对象或 特定类 别执行 的一系 列 操作， 有时称 为抽象 
数据 类型或 ADT。 这一 概念也 会被称 为类或 模块。 我们 将在第 7 章 中研究 若干抽 象数据 类型， 
而在本 章中， 我 们会看 到其中 一个： 优先级 队列。 

ADT 可 以有多 种抽象 实现。 例如， 在 本节中 可看到 二叉查 找树是 一种实 现词典 ADT 的好方 
法。 表 是另一 种看似 可靠实 则经常 效率低 下的实 现词典 ADT 的方式 。 7.6 节 将介绍 散列， 另一 
种不 错的词 典实现 方式。 

每种抽 象实现 依次可 通过若 干种不 同的数 据类型 来具体 实现。 举例 来说， 可 以使用 二叉树 
的左 子节点 右子节 点实现 作为实 现二叉 查找树 的数据 结构。 这 一数据 结构， 加上用 于插入 、删 
除 和查找 的恰当 函数， 就成 了词典 ADT 的一种 实现。 

在程序 中使用 ADT 的一个 重要原 因是， ADT 底层的 数据只 能通过 ADT 的操作 （比如 插入） 
来访问 。 这 一限制 是防御 性编程 的一种 形式， 可以防 止操作 数据的 函数以 意料之 外的方 式对数 
据进行 偶发变 更。 使用 ADT 的第 二个重 要原因 在于， ADT 让 我们可 以重新 设计数 据结构 和实现 
其 操作的 函数， 在不担 心会为 程序其 余部分 引入错 误的前 提下， 这样 可能提 高操作 的效率 。如 
果 只有用 于 ADT 操作 的接口 函数被 正确地 重写， 就 不会出 现新的 错误。 


1  2  3  4  5  6  7 

/ - \  / - 、 / - \  / - 、 / \  / - '  / - V 


图 5-34 如果 X 在 r 中， 函数 lookup  (x,T) 会返回 TRUE, 否 则返回 FALSE 
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TREE  insert (ETYPE  x,  TREE  T) 

{ 

if  (T  ==  NULL)  { 

T  =  (TREE)  malloc (sizeof (struct  NODE)); 
T->element  =  x; 

T->leftChild  =  NULL; 

T -〉 rightChild  =  NULL; 

} 

else  if  (x  <  T->element) 

T->leftChild  =  insert (x,  T->lef tChild) ; 
else  if  (x  >  T->element) 

T->rightChild  =  insert (x,  T->rightChild) ; 
return  T ; 


更具体 地讲， 图 5-34 中的递 归函数 lookup  (x,  T) 使用左 子节点 右子节 点数据 结构实 现了这 
一 算法。 请 注意， lookup 返 回的是 BOOLEAN 类型 的值， 这一 类型实 际上与 int 相同， 不 过它定 
义的 值只有 TRUE 和 FALSE, 分别 定义为 1 和 0。 BOOLEAN 类 型是在 1.6 节中引 人的。 此外， 请注 
意， 这里的 lookup 函数只 接受能 由=、 <等 运算符 比较的 类型。 如果要 让它处 理示例 5.23 中用到 
的 字符串 那样的 数据， 就需要 重写。 

在第 ⑴行， lookup 会确定 r 是否 为空。 如果不 为空， 那么 lookup 在第 (3) 行 会确定 x 是否存 
储 在当前 节点。 如果 x 不在该 节点， 那么 lookup 就 会根据 x 是小 于还是 大于当 前节点 存储的 元素， 
递 归地查 找左子 树或右 子树。 

5.7.3 二 叉查找 树元素 的插入 

向二叉 查找树 r 中增 加一个 新元素 x 是很简 单的， 以 下递归 算法简 要描述 了处理 思路。 

依据。 如果 r 是空 树， 用一 棵由单 个节点 构成的 树替代 r， 并在 该节点 处放上 x。 如果 空 
而 且其根 节点处 有元素 X， 那么 X 已经 在字 典中， 不 需要再 做任何 事情。 

归纳。 如果扣 _空， 而且 X 不在 其根节 点处， 那 么如果 JC 小 于根节 点处的 元素， 就将 X 插人左 
子树， 如果 X 大 于根节 点处的 元素， 就将 X 插入右 子树。 

如图 5-35 所示的 insert  (x,T) 函数 为左子 节点右 子节点 数据结 构实现 了这一 算法。 在第 (1) 
行发现 r 的值为 NULL 时， 就会新 建一个 节点， 该 节点就 成了树 r。 第 (2) 到第 (5) 行 会创建 该树， 
并在第 (10) 行 返回。 


图 5-35  insert  (x,  T) 函数将 x 添加到 7" 中 

如果在 r 的根 节点处 没找到 X， 那 么在第 (6) 到第 (9) 行， 会 根据相 应的情 况对左 子树或 右子树 
调用 insert 函数。 被 该插入 操作修 改过的 子树， 会分 别在第 (7) 或第 (9) 行成为 m 根节点 的左子 
树或 右子树 的新值 。第 ( 1 0) 行会返 回增加 过元素 的树。 

请 注意， 如果 X 在 扣勺 根 节点， 那么第 (1)、 第 (6) 和第 (8) 行 的测试 都不会 成功。 这种情 况下， 
insert 会 在什么 都不做 的情况 下返回 7, 这是正 确的， 因为 jc 已 经在树 中了。 

♦ 示例 5.24 

继 续示例 5.23 的 问题， 从 技术上 理解， 对字符 串进行 比较需 要的代 码与图 5-35 相比 稍有不 
同， 图 5-35中< 这样 的算术 比较要 替代为 对&这 样恰当 定义的 函数的 调用。 图 5-36 展示 了向图 5-33 
插入 Filthy 后的 二叉查 找树。 首先 对根节 点调用 insert ， 发现 Filthy<Hairy。 因此， 在图 
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5-35 的第 ⑺行， 对 左子节 点调用 insert。 结 果发现 Filthy>Bashful ， 所以接 着在第 (9) 行对 
右子节 点调用 insert 。 这样 就到了 Grumpy ， 它从 词典顺 序上在 Filthy 之后， 因此 就要对 
Grumpy 的 左子节 点调用 insert 。 

指向 Grumpy 左 子节点 的 指针为 NULL ， 所以 在第 ( 1) 行必 须仓1 J 建一 个新 节点。 这棵单 节点树 
会 返回给 Grumpy 节 点处对 insert 的 调用， 而 且在第 (7) 行该 树会被 安置为 Grumpy 左子 节点的 
值 。带有 Grumpy 和 Filthy 的 修改过 的树会 返回给 标号为 Bash  ful 的节 点处对 insert 的调 用。 
然后， 以 Bashful 为根节 点的新 树就成 了整棵 树根节 点的左 子树。 最终的 树如图 5-36 所示。 


Hairy 


Filthy  Happy 


图 5-36 插人 Filthy 之后 的二叉 查找树 


5.7.4 二 叉查找 树元素 的删除 


从 二叉查 找树中 删除某 个元素 X 要比查 找或插 入复杂 一些。 首先， 要找 岀含有 X 的 节点； 如 
果没有 这样的 节点， 就 算是完 事了， 因为 X 不在这 棵要处 理的树 里头。 如果 X 在叶子 节点处 ，那 
么直 接删除 该叶子 节点就 行了。 不过， 如果 X 是某个 内部节 点《， 就不 能直接 删除该 节点， 因为 
这样 做会破 坏树的 连 通性。 

我们必 须以某 种方式 对树进 行重新 排列， 从 而在维 持二叉 查找树 属性的 同时让 X 从树 中消 
失。 这会 有两种 情况。 第 一种， 如果 〃只有 一个子 节点， 就用 该子节 点代替 《， 这 样二叉 查找树 
的 属性就 得到了 保持。 

第二种 情况， 假设 〃的 两个子 节点都 存在。 一种策 略就是 找到标 号为: F 的节点 m， 它是 〃右子 
树中 最小的 元素， 并在节 点《 处用 j 代替 X， 如图 5-37 所示。 然后 就可以 从右子 树中删 除节点 m。 


图 5-37 要删除 X， 先 删除包 含右子 树中最 小元素 ^ 的 节点， 然后 将节点 《 处的标 号由 x 替换为 j 
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ETYPE  deletemin(TREE  *pT) 

{ 

ETYPE  min; 

if  ((*pT)->leftChild  ==  NULL)  { 
min  =  (*pT) ->element ; 

OpT)  =  (*pT)->rightChild; 
return  min; 

> 

else 

return  deletemin (& ( (*pT)->leftChild) ) ; 

} 


此时 二叉查 找树属 性继续 成立。 原因 在于， 1比《的 左子树 中的所 有元素 都大， 而: F 大于 X( 因 
为； 在 〃的 右子树 中）， 所以 y 也比 〃左子 树的所 有元素 都大。 因此， 就 〃的 左子树 而言， y 是适 合于位 
置《的 元素。 而对 《 的 右子树 来说， y* 是 适合作 为根节 点的， 因为 选出的 y 是右 子树中 的最小 元素。 


图 5-38  deletemin  (  pT  ) 函数 会删除 并返回 T 的最 小元素 

如图 5-38 所示， 可以 很方便 地定义 deletemin  (pT) 函 数从非 空二叉 查找树 中删除 含最小 
元素的 节点， 并 返回最 小元素 的值。 我们给 该函数 传入的 参数是 指向树 r 的指 针的 地址。 该函数 
中 所有对 r 的引 用都 是通过 该指针 间接完 成的。 

我们 给函数 传入的 参数， 是指 向某个 位置的 指针， 而在 这个位 置可以 找到指 向节点 （即 树) 
的 指针， 这 种风格 的树操 作叫作 按引用 调用。 这在图 5-38 中 是很关 键的， 因为第 (3) 行的 指针指 
向左子 节点为 NULL 的节点 w ， 我们希 望将这 一指针 替代为 另一个 指针， 节点 m 的 right  Child 
字段中 的指针 。 如果 deletemin 的参数 是指向 节点的 指针， 那 么这种 改变就 会在对 deletemin 
的 调用中 发生， 而且 树中的 指针其 实不会 改变。 顺便说 一下， 也可 以使用 按引用 调用来 实现插 
入 操作。 在 那种情 况下， 可以 直接对 树进行 修改， 而不 必像图 5-35 中所做 的那样 返回修 改过的 
树。 这里 将这一 修订 过的 insert 函数留 作本节 习题。 

现在来 看看图 5-38 的工作 原理。 沿着 左子节 点向下 寻找， 直 到在图 5-38 的第 (1) 行找 到左子 
节点为 NULL 的 节点， 就 找到了 最小的 元素。 在 该节点 m 处的 元素 ;; 一 定是该 子树中 最小的 元素。 
原因 在于， 这里 完全是 循着左 子节点 向下寻 找的， 这 样一来 y 要比 m 在 该子树 中的任 一祖先 都小。 
而子树 中其他 节点要 么是在 m 的右子 树中， 根据 二叉查 找树属 性这些 元素肯 定大于 7, 要 么是在 
m 的某 个祖先 的右子 树中。 右 子树中 的元素 肯定比 w 的某 个祖先 处的元 素大， 因此也 就大于 y， 
如图 5-39 所示。 

在 子树中 找到最 小的元 素后， 在第 (2) 行会记 录下它 的值， 并在第 (3) 行 用它的 右子树 代替最 
小元 素所在 节点。 请 注意， 在 从子树 中删除 最小元 素时， 总 是有着 最简单 的删除 情况， 因为不 
存在左 子树。 

还有 一 点与 deletemin 相关 的内容 就是， 当第 (1) 行的 测试失 败时， 就意味 着还没 到达最 
小 元素， 就要 继续处 理左子 节点。 这一 步骤是 通过第 (5) 行 的递归 调用完 成的。 

deletemin (x, pT) 函 数如图 5-40 所示。 如果 pT 指 向空树 就没 什么要 做的， 而且第 (1) 
行的 测试会 确保什 么事都 没做。 此外， 第 (2) 行和第 (4) 行的测 试 会处理 X 不在根 节点的 情况， 会根 
据具 体情况 重定向 到左子 树或右 子树。 如果 到达第 (6) 行， 那么 X 就 一定在 汹 根节点 位置， 而且 
我们 必须替 换该根 节点。 第 (6) 行 会测试 左子节 点是否 可能为 NULL, 若为 NULL， 那 么就可 以在第 
(7) 行 直接将 7 替换 为其右 子树。 同 样地， 如 果在第 (8) 行发 现右子 节点为 NULL, 那 么就用 汹 左子 
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void  delete (ETYPE  x,  TREE  *pT) 

{ 

if  ((*pT)  !=  NULL) 

if  (x  <  (*pT) ->element) 

delete (x,  & ( (*pT) ->leftChild) ) ; 
else  if  (x  >  (*pT)->element) 

delete (x,  &((*pT)->rightChild)) ; 
else  /* 这里， xS(*pT) 的根 节点处 */ 
if  ((*pT)->leftChild  ==  NULL) 

(*pT)  =  (*pT) ->rightChild; 
else  if  ((*pT)->rightChild  ==  NULL) 

(*pT)  =  (*pT)->leftChild; 
else  /* 这里 的两个 子节点 都不为 NULL  */ 

(*pT) ->element  = 

deletemin (& ( (*pT)->rightChild) ) ; 


树 来替代 r。 请 注思， 如 果根节 点的两 个子节 点都为 NULL, 那么 就在第 (7) 行将 _ 换为 NULL。 

两个 子节点 均不为 NULL 的情况 是在第 (10) 行处 理的。 在这里 会调用 deletemin， 返 回右子 
树 的最小 元素: F， 并从 该子树 中删除 7。 第 (10) 行的 赋值操 作会在 r 的根节 点处用 j； 代替 X。 


>7  \ 

图 5-39 右 子树中 所有其 他元素 都大于 y 


图 5-40  delete  (x,pT) 函数从 T 中删 除元素 x 

♦ 示例 5.25 

如果使 用类似 delete  (但 能够 比较字 符串） 的函 数从图 5-36 中的二 叉查找 树删除 Hairy , 
结 果如图 5-41 所示。 因为 Hairy 在 具有两 个子节 点的节 点中， 所以 delete 会调用 deletemin 
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函数， 从 根节点 的右子 树中删 除并返 回最小 的元素 Happy, 然后 Happy 就成了 曾存放 Hairy 的 
该树根 节点的 标号。 


Happy 


Filthy 


图 5-4 1 删 除 Ha  i  ry 后 的二叉 查找树 

5.7.5  习题 

a) 假 设使用 最左子 节点右 兄弟节 点表示 法实现 二叉查 找树。 重新 编写适 用于这 一数据 结构的 实现了 
插入、 删除和 查找这 些词典 操作的 函数。 

(2)  如 果按顺 序插人 单词： Doc、 Dopey、 Inky、 Blinky、 Pinky 和 Sue, 会使图 5-33 中的二 叉查找 
树 变成什 么样？ 然后， 依 次删除 Doc、 Sleazy 和 Hairy 后又会 怎样？ 

(3)  用对字 符串的 词典比 较代替 对整数 的算术 比较， 重 新编写 lookup、 insert 和 delete 函数。 

(4)  * 重 新编写 insert 函数， 使 得树参 数可以 按引用 传递。 

(5) * 在本 节中， 我 们曾以 “ 按引用 调用” 的方式 编写过 delete 函数。 不过， 也可以 用编写 insert 
函数 的风格 编写该 函数， 即接受 树作为 参数， 而 不是接 受指向 树的指 针作为 参数。 编写这 一版本 
的 delete 操作。 注意： 让 deletemin 返回 修改过 的树并 非真正 可能， 因为它 还必须 返回最 小的元 
素。 我们 可以重 新编写 deletemin， 使其 返回同 时具有 新树和 最小元 素的结 构体。 

(6)  要删 除带有 两个子 节点的 节点， 除 了通过 在右子 树中找 到最小 元素， 还可以 在左子 树中找 到最大 
的 元素， 并用 它替代 删除的 元素。 重 新编写 来自图 5-38 和图 5-40 的 delete 和 deletemin 函数， 
从而融 人这种 修改。 

(7)  * 在需要 删除某 个具有 父节点 p、 （ 非 空的） 左 子节点 /和 （ 非 空的） 右 子节点 r 的节点 n 处的元 素时， 
另一 种处理 删除操 作的方 式是， 找岀 《 的右 子树中 存放最 小元素 的节点 接着， 让 r 代替 n 成为; ? 
的左 子节点 或右子 节点， 并让 / 成为 m 的左子 节点。 请 注意， m 之 前不能 有左子 节点。 证明 这一系 
列 改变为 何会保 留二叉 查找树 属性。 大家 是否愿 意选择 这一策 略替代 5.7 节中描 述过的 那种？ 提 
示： 对这两 种方式 而言， 考 虑它们 对路径 长度的 影响。 正如我 们将在 5.8 节中看 到的， 短路 径会让 
操作运 行得更 迅速。 

(8) * 在本习 题中， 考虑图 5-39 所示的 二叉查 找树。 通过对 / 的归纳 证明， 如果 1 彡 / 彡々， 那么 y<z,+。 
然后， 证明 是以 & 为 根节点 的树中 最小的 元素。 

(9)  编写 完整的 C 语言 程序， 实 现存储 整数的 词典。 接 受形为 x/ 的 命令， 其中 x 是字母 i  (插 人）、 d 
(删 除） 和 1  (查 找） 中的 一个。 整数 / 是该 命令的 参数， 就 是有待 插人、 删除或 查找的 整数。 
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5.8 二 叉查找 树操作 的效率 

二叉 查找树 提供了 一种相 当快速 的词典 实现。 首先请 注意， 插入、 删 除和查 找操作 各会进 
行若干 次递归 调用， 调 用次数 等于所 经过的 路径的 长度。 但 该路径 必须包 含达到 右子树 最小元 
素的 路线， 以防 deletemin 被 调用。 对 lookup、 insert、 delete 和 deletemin 函数 进行简 
单的 分析， 可知 各操作 都花费 0(1) 的 时间， 而且要 加上一 次递归 调用的 时间。 此外， 因 为该递 
归 调用总 是在当 前节点 的子节 点处进 行的， 所 以每次 成功调 用中节 点的高 度至少 要减少 1。 

因此， 如 果以指 向某个 高度为 A 的节点 的指针 调用这 些函数 所花的 时间为 r(/0 ， 就 有以下 
递推关 系来为 tXa) 确定 上界。 

依据。 7X0)  =  0(1)。 也就 是说， 在对叶 子节点 调用函 数时， 该调 用要么 终止， 不再 有进一 
步的 调用， 要么以 NULL 参数 进行一 次递归 调用， 接 着会返 回而不 再继续 调用。 这 些工作 所花时 
间为 0(1)。 

归纳。 对 A 彡 1， r(/z) 彡 r(A-i)  +  <9 ⑴。 也就 是说， 对任 何内部 节点调 用函数 所花的 时间， 
都等于 o(i) 加上 对高度 至多为 a -1 的节点 进行一 次递 归调用 所花的 时间。 如 果作出 r(/o 会随着 
办的 增加而 增加这 一合理 假设， 那么 该递归 调用的 时间不 会大于 。 

该递 推关系 的解是 0(/0, 正如 3.9 节中讨 论过的 那样。 因此， 对具有 《 个节点 的二叉 查找树 
执 行词典 操作的 运行时 间至多 与该树 的高度 成比例 。不 过具有 〃个节 点的二 叉查找 树通常 高度为 
多 少呢？ 

5.8.1 最 坏情况 

在最 坏的情 况下， 二叉树 的所有 节点都 排列在 一条路 径上， 就像图 5-42 所示的 树那样 。例 
如， 取一列 有序的 &个 元素， 将这些 元素一 个个地 依次插 人一棵 空树， 就可以 形成这 样的树 。也 
有不 全由右 子节点 组成， 而是由 左右子 节点混 合组成 的单路 径树， 其路径 上的内 部节点 既可能 
是 左子节 点也可 能 是右子 节点。 


图 5-42 退化的 二叉树 


像图 5-42 这 样具有 &个 节 点的树 的高度 显然为 A-1。 因 此可以 预见， 如 果具有 &个元 素的词 
典的表 示不幸 是这些 树中的 一种， 那么 查找、 插入 和删除 操作所 花时间 都会是 0(幻。 从 直觉上 
讲， 如 果需要 查找某 个元素 X， 平 均需要 走过一 半路径 才会找 到它， 需 要查看 A/2 个 节点。 如果 
这还没 有找到 X， 就需要 继续向 下搜索 该树， 直 到到达 JC 所在 的位置 为止， 平均也 要走过 该路线 
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的 一半。 因为 查找、 插 入和删 除操作 都涉及 元素的 查找， 所以 可知， 在 给定图 5-42 所示 树的最 
坏情 况下， 这 些操作 平均要 花的时 间都是 0(h)。 

5.8.2 最 佳情况 

不过， 二 叉树不 一定非 得像图 5-42 这 样又高 又痩， 它也可 以是图 5-43 这种分 枝丛生 的低矮 
样式。 而后 者这样 的树， 每个内 部节点 向下到 某层的 两个子 节点都 存在， 而且下 一层的 所有叶 
子节 点也都 存在， 这样的 结构叫 作完全 树或完 整树。 


高度为 A 的完 全二叉 树共有 2A+1  -1 个 节点。 我们可 以通过 对高度 的 归纳证 明这一 声明。 

依据。 如果 A  =  0, 那么该 树由一 个节点 组成。 因为 2°+1-1  =  1， 所以依 据情况 成立。 

归纳。 假设 高度为 A 的完 全二 叉树有 V+1-l 个 节点， 并考虑 高度为 A +  1 的完全 二叉树 。该 
树有 一个根 节点， 并 由两棵 高度为 A 的完 全二 叉树分 别作为 其左右 子树。 例如， 图 5-43 中 高度为 
2 的完 全二叉 树包含 根节点 叫， 由《2、 《4和《53 个节点 构成的 左子树 （高 度为 1 的 完全二 叉树） ，以 
及 由其余 3 个节点 构成的 右子树 （另 一棵 高度为 1 的完 全二叉 树)。 根 据归纳 假设， 两棵 高度为 A 
的完 全二叉 树共有 2(2A+1-1) 个 节点。 在加 上根节 点后， 可知 高度为 A  +  1 的完 全二叉 树共有 
2(2h+1  -l)  +  l  =  2/!+2-l 个 节点， 这就 证明了 归纳 步骤。 

现在可 以将这 一关系 反转， 说一 棵具有 A  =  2a+1  -1 个节点 的完全 二叉树 高度为 A。 这样 一来， 
k  +  l  =  2h+10 两边取 对数， m^llog2(k  +  l)  =  h  +  l, 或 者大致 可以说 A 是 <9(logA:)。 因 为查找 、插 
入 和删除 的运行 时间都 与树的 高度成 比例， 所 以这些 操作所 花的时 间是节 点数的 对数。 这样的 
性能 要比图 5-42 所示 最糟情 况所花 的线性 时间强 多了。 随着词 典的大 小越来 越大， 词典 操作运 
行时 间的增 长要比 集合中 元素的 增长慢 得多。 

5.8.3  一 般情况 

图 5-42 所示情 况和图 5-43 所 示情况 哪个更 普遍？ 其实， 两者 在实践 中都不 常见， 不过图 5-43 
中的完 全树提 供的词 典操作 效率与 一般情 况的效 率是近 似的。 也就 是说， 平均情 况下， 查找、 
插 入和删 除花 费的都 是对数 时间。 

要证 明一般 二叉树 可以提 供对数 时间的 词典操 作是很 难的。 证明 的要点 在于， 从这 样的树 
的根节 点到某 个随机 节点的 路径长 度的期 望值是 0(logn)  o 本节习 题中将 给岀这 一期望 值的递 
推 等式。 

不过， 我们可 以直观 地看岀 这为什 么应该 是正确 的运行 时间， 理由 如下。 二 叉树的 根节点 
会将除 它自己 之外的 节点分 为两棵 子树。 在最平 均的分 布中， 一棵有 &个节 点的树 将会有 两棵各 
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有约 A/2 个 节点的 子树。 如果 根节点 元素刚 好是在 一列有 序元素 的正中 位置， 就 会形成 这种情 
况。 而在最 坏的分 布中， 根节点 元素是 词典中 的第一 个或最 后一个 元素， 这样就 会使一 棵子树 
为空， 而另 一棵子 树中有 & -1 个 元素。 

平均 而言， 可以预 期根节 点是在 已排序 表正中 和极端 之间， 而且 可以预 期约有 A/4 个节点 
在较 小的子 树中， 另外的 3  A/ 4 个 节点在 较大子 树中。 假 设在向 下探索 树的过 程中， 每次 递归调 
用 时始终 移动到 较大子 树的根 节点， 而且类 似的假 设适用 于每层 元素的 分布。 在第 一层， 较大 
子树 会按照 1:3 的比例 划分， 在第 二层留 下共有 (3/ 4)(34/ 4)， 即奴 /16 个节 点的最 大子树 。因 
此， 可以预 见在第 ^ 层的 最大子 树约有 (3  /  4)1 个 节点。 

如果 ^ 变得足 够大， 那么 (3/ 4) 奴的量 会接近 1。 而 且可以 预见， 在这 一层， 最大子 树将是 
由一 个叶子 节点组 成的。 因此 要问， ^ 为 什么值 可以使 (3/4)1  <1? 如 果取以 2 为底 的对数 ，就 
得到 

d  log2  (3  /  4)  +  log2  k  ^  log2 1  (5.1) 

现有 log2l  =  0 ， 且 log2(3/4) 是 一 •个负 常数， 约为 -0.4。 因 此可将 (5.1) 式重 新写为 
log 2k  ^  0.4d  , 或  a  多 (log,  k)  /  0.4  =  2.5  log2  k  0 

换句 话说， 在深度 约为节 点数以 2 为底的 对数的 2.5 倍 的位置 （或 是在更 高的层 数）， 就有望 
全是 叶子节 点了。 这 一论述 证实了 （但 并未 证明） 一 般二叉 查找树 的高度 与该树 节点数 的对数 
成正 比这一 陈述。 

5.8.4  习题 

(1)  如 果树: r 高度为 A， 而 且分支 系数为 那么树 r 最多 可以有 多少个 节点， 最少有 多少个 节点？ 

(2) ** 进 行如下 实验， 从 n 个不 同值的 n! 种顺序 中任选 一种， 并按 照这一 顺序将 这些值 插人一 棵空的 
二 叉查找 树中。 设 K«) 是实 验后这 《 个值 中某个 特定值 V 所在节 点的深 度的期 望值。 

(a)  证明， 对 《 彡 2 ， 

P(n)  =  l  + 钱 kP(k) 

(b)  证明 尸(《) 是 O(logw)  o 

5.9 优先级 队列和 偏序树 

到目前 为止， 我 们只看 到一种 抽象数 据类型 —— 词典， 以及 它的一 种实现 —— 二叉查 找树。 
本节将 研究另 一种抽 象数据 类型以 及它最 有效率 的一种 实现。 这种叫 作优先 级队列 的抽 象数据 
类 型是各 自有优 先级与 之关联 的一组 元素。 例如， 这些元 素可以 是一些 记录， 而 优先级 则可能 
是记 录中某 个字段 的值。 与优先 级队列 ADT 有 关的两 种操作 如下： 

(1)  向集合 中插入 一个元 素 （ insert  ); 

(2)  从 集合中 找出优 先级最 高的元 素并将 其删除 （这种 组合操 作称为 deletemax  )， 被删除 
的 元素由 该函数 返回。 

♦ 示例 5.26 

分时操 作系统 从多个 来源接 受服务 请求， 而 这些作 业的优 先级可 能不尽 相同。 例如， 优先 
级最高 的可能 是系统 进程， 这些进 程中可 能包含 监控传 入数据 （比 如在终 端的按 键动作 生成的 
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信号， 或 是局域 网上数 据包的 到达所 生成的 信号） 的 “ 守护进 程”。 接 着可能 是用户 进程， 那些 
由普 通用户 发岀的 指令。 再下 来就可 能是某 些特定 的后台 作业， 比 如向磁 带备份 数据， 或是用 
户 已指定 以低优 先级运 行的长 计算。 

作 业可以 表示为 记录， 这种记 录由对 应作业 的整数 ID 和对 应作业 优先级 的整数 组成。 也就 
是说， 可以使 用如下 结构体 

struct  ETYPE  { 
int  jobID; 
int  priority; 

>； 

表示优 先级队 列中的 元素。 在 初始化 新的作 业时， 它会得 到一个 ID 和 一个优 先级。 然后对 
等待服 务的作 业构成 的优先 级队列 执行这 一元素 的插入 操作。 当 处理器 资源可 用时， 系 统就会 
来到 优先级 队列， 并执行 deletemax 操作。 由 该操作 返回的 元素就 是等待 服务的 作业中 优先级 
最高的 作业， 而该 作业正 是接下 来要执 行的。 

♦ 示例 5.27 

我们 可以使 用优先 级队列 ADT 实 现排序 算法。 假设有 一列整 数心、 &、•••、 ％ 要 排序， 可以 
将这些 整数放 入一个 优先级 队列， 分 别使用 这些元 素的值 作为各 自的优 先级。 如果随 后执行 
deletemax 操作 《 次， 这 些整数 就会按 照从大 到小的 顺序依 次被选 出来。 5. 10 节还 会更详 细地讨 
论这种 称为堆 排序的 算法。 


5.9.1 偏序树 

实现 优先级 队列的 一种有 效方式 是使用 偏序树 （ Partially  Ordered  Tree,  POT), 这是 一种具 
有 如下属 性的带 标号二 叉树。 

(1)  节点 的标号 是具有 “优 先级” 的 元素， 该优先 级可以 是元素 的值， 也可以 是元素 某个组 
成部分 的值。 

(2)  存储 在节点 中的元 素的优 先级， 不 小于存 储在其 子节点 中的元 素的优 先级。 

属性 (2) 说明， 任何 子树根 节点处 的元素 总是该 子树中 最大的 元素。 我们 将属性 (2) 称 为偏序 
树 属性， 或 POT 属性。 

♦ 示例 5.28 

图 5-44 展 示了一 棵具有 10 个元 素的偏 序树。 在这 里以及 本节的 其他部 分中， 我们都 将用元 
素的 优先级 来表示 它们， 就像元 素和它 们的优 先级是 一回事 那样。 请 注意， 相等 的元素 可能出 
现 在树中 的不同 层级。 要说 明偏序 树属性 在根节 点得到 满足， 请 注意， 根 节点处 的元素 18 不小 
于其子 节点处 的元素 18 和 16。 同样， 可以 验证在 该树的 每个内 部节点 处偏序 树属性 都成立 。因 
此， 图 5-44 是 一棵偏 序树。 

偏 序树为 优先级 队列提 供了一 种实用 的抽象 实现。 简单 地说， 要执行 deletemax 操作 ，就 
要 找到根 节点， 它肯 定是最 大的， 并 用底层 的最右 节点代 替它。 不过， 这样 做时， 偏序 树属性 
可能被 破坏， 因此必 须还原 偏序树 属性， 要 让新放 置在根 节点处 的元素 “向下 沉”， 直到 它到达 
合适的 层次， 使得 它小于 它的父 节点， 并且 不小于 它的子 节点。 要执 行插入 操作， 就要 在底层 
尽可能 左的位 置增加 一个新 的叶子 节点， 如 果底层 没有空 位置， 就 要新添 加一个 层级， 并将该 
节点 放在新 一层的 左端。 这 样也可 能对偏 序树属 性造成 破坏， 如 果造成 破坏， 就要 让新元 素“向 
上 冒”， 直到 它找到 合适的 位置。 
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5.9.2 平 衡偏序 树和堆 

如果 偏序树 除最下 层之外 的所有 层级的 节点全 存在， 而 且最下 层的叶 子节点 尽可能 集中在 
左侧， 那么 这样的 偏序树 就是平 衡的。 这 一条件 说明， 如果 该树有 〃个 节点， 那么 从根节 点到任 
何节 点的路 径都不 可能比 log2  « 长。 图 5-44 中的 树就是 平衡偏 序树。 

平衡偏 序树可 以用称 为堆的 数组数 据结构 实现， 这种 数据结 构提供 了一种 迅速、 紧 凑的优 
先 级队列 ADT 实现。 堆就 是对元 素下标 有着特 殊解释 的数组 ^4。 首先 从^[1] 中 的根节 点开始 ，并 
未使用 40]。 在 根节点 之后， 各层 级依次 岀现。 在 同一层 级中， 节点 按照从 左到右 的顺序 排列。 

因此， 根 节点的 左子节 点是在 ^[2] 中， 而 根节点 的右子 节点在 4[3] 中。 一般 而言， 处节 
点 的左子 节点在 J[2/] 中， 而 其右子 节点在 J[2/+l] 中， 如果这 些子节 点在偏 序树中 都存在 的话。 
这种树 的平衡 性质使 这种表 示成为 可能。 这 些元素 的偏序 树属性 说明， 如果 有 两个子 节点， 
那 么邓] 不小于 J[2 柄 tL4[2z_  +1] ， 如果 邓] 只有一 个子 节点， 那 么邓] 不小于 J[2/]。 

1  2  3  4  5  6  7  8  9  10 

18  18  16  9  7  1  9  3  7  5 


图 5-45 图 5-44 对应 的堆 


实现 的层次 

对词典 和优先 级队列 这两种 ADT 进行 比较， 并 注意到 每种情 况下只 给出了  一 种抽象 实现以 
及 对应该 抽象实 现的一 种数据 结构， 这 样做是 很有意 义的。 每种 ADT 都有其 他的抽 象实现 ，而 
每种 抽象实 现也都 有其他 的数据 结构。 之 前已经 说过， 在本 书随后 的内容 中还将 讨论词 典的其 
他抽象 实现， 比如散 列表， 而且在 5.9 节的习 题中表 示过， 二 叉查找 树对优 先级队 列而言 也是种 
合适 的抽象 实现。 下表总 结了目 前为 止我们 对词典 和优先 级队列 的抽 象实现 及数据 结构的 了解。 


ADT 

抽 象实现 

数 据结构 

词典 

二叉 查找树 

左 子节点 右子节 点结构 

优先 级队列 

平衡 偏序树 

堆 
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♦ 示例 5.29 

表示图 5-44 所示 平衡偏 序树的 堆如图 5-45 所示。 例如， J[4] 存 放着值 9, 这一 数组元 素表示 
图 5-44 中根节 点的左 子节点 的左子 节点。 而 该节点 的子节 点则在 ^[8] 和 J[9] 中。 它 们的元 素分别 
是 3 和 7, 都 不大于 9, 正如偏 序树属 性所要 求的。 数 组元素 ^[5] 对应 着根节 点左子 节点的 右子节 
点， 它的 左子节 点在^ [10] 的 位置。 它可 以有存 放在^ [11] 中 的右子 节点， 但图 5-44 中的偏 序树只 
有 10 个 元素， 所以 411] 并 不是该 堆的一 部分。 

尽管 这里展 示的树 节点和 数组元 素似乎 就只是 优先级 本身， 但 原则上 讲树节 点或数 组中出 
现的是 完整的 记录。 正 如我们 将要看 到的， 在 偏序树 或其堆 表示的 父子节 点间要 进行很 多元素 
交换。 因此， 如果数 组元素 是指向 表示优 先级队 列中各 对象的 记录的 指针， 并将 这些记 录存储 
在堆 “ 之外” 的另 一个数 组中， 就 会更有 效率。 这样 就可以 在不调 整记录 本身的 情况下 直接对 
指 针进行 交换。 

5.9.3 优 先级队 列操作 在堆上 的执行 

在 5.9 节和 5.10 节中， 会用 全局整 数数组 A[l.  .MAX] 表 示堆。 这里 假设元 素都是 整数， 而且 
都 等于它 们的优 先级。 当元 素是记 录时， 可 将指向 记录的 指针存 储在数 组中， 并 根据记 录中的 
某个 字段来 确定元 素的优 先级。 

假设有 一个满 足偏序 树属性 的具有 《-1 个元素 的堆， 我 们要向 中添加 第《个 元素。 偏序 
树属性 在各处 都继续 成立， 除了在 和 它的父 节点间 可能有 例外。 因此， 如果 大于 其父节 
点位置 的元素 J[«/2]， 就 必须交 换这些 元素。 而 J[n/2] 与 其父节 点间也 可能违 背偏序 树属性 。如 
果这样 的话， 就要让 新元素 递归地 “冒 泡”， 直 到它到 达父节 点有一 个更大 元素的 位置， 或是到 
达 根节点 位置。 

执 行这一 操作的 C 语言 函数 bubbleUp 如图 5-46 所示。 它使用 swap  (A,  i,  j  ) 函 数交换 
秕 4[/] 处的 元素， 该 函数也 是在图 5-46 中定 义的。 bubbleUp 的 操作很 简单。 给定 表示节 点的参 
数 /， 它 表示的 节点与 其父节 点有可 能违背 偏序树 属性， 测试 是否有 /  =  1， 也就是 测试是 否为根 
节点 ，在 根节点 的话就 不会破 坏偏序 树属性 。如果 不是， 则测试 是 否大于 其父节 点处的 元素； 
如 果是， 就在其 父节点 处递归 地调用 bubbleUp, 交 换邓] 与其父 节点。 


void  swap(int  A  [] ， int  i， int  j ) 

{  " 

int  temp; 

temp  =  A [i] ; 

A[i]  =  A[j] ; 

A  [j]  =  temp; 

} 

void  bubbleUp  (int  A[] ， int  i) 

{ 

if  (i  >  1  &&  A[i]  >  A  [i/2])  { 
swap (A,  i ,  i/2) ; 
bubbleUp (A,  i/2); 


图 5-46  swap 函数交 换数组 元素， 而 bubbleUp 函数则 将堆中 的新元 素推到 它的右 侧位置 
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♦ 示例 5.30 

假 设有图 5-45 所示 的堆， 并 向其添 加了优 先级为 13 的第 11 个 元素。 该 元素会 岀现在 J[ll] 中， 
就 有了如 下数组 


9  10  11 


18  18  16  9  7  1  9  3  7  5  13 


调用 bubbleUp(A,ll) ， 对 J[ll] 和 J[5] 进行 比较， 因为 J[ll] 更大， 所以必 须交换 这两个 
元素。 也 就是说 45] 和 3[11] 违背了 偏序树 属性。 因此， 数组 就成了 

1  2  3456789  10  11 
18  18  16  9  13  1  9  3  7  5  7 


调用 bubbleUp(A,5) ， 对42] 秕 4[5] 进行 比较， 因为 J[2] 更大， 所以不 会违背 偏序树 属性， 
bubbleUp  (A,  5  ) 不会进 行任何 操作。 这样 就已经 恢复了 该 数组的 偏序树 属性。 

现 在介绍 如何实 现优先 级队列 的插入 操作。 设《 是优 先级队 列中当 前的元 素数， 并假 设数组 
A[l..n] 已 经满足 偏序树 属性。 增加 《， 并 将待插 入的元 素存储 到新的 A[n] 中。 最后， 调用 
bubbleUp  (A,  n) 。 表示 插入操 作的代 码如图 5-47 所示 。 参数 jc 是待 插入的 元素， 而参数 pn 是指 
向优 先级队 列当前 大小的 指针。 请 注意， 《 必须 按引用 传递， 也就 是说， 通过指 向《 的指针 传递， 
这样当 《增 加时， 改变才 不只是 在插入 操作局 部造成 影响。 这里省 略了对 的检 查。 


void  insert  (int  A[] ， int  x， int  *pn) 
{ 

(*pn)++; 

A  [*pn]  =  x; 
bubbleUp (A,  *pn) ; 


图 5-47 在堆上 实现的 优先级 队列插 入操作 

要实现 优先级 队列的 deletemax 操作， 需 要对堆 或偏序 树进行 另一项 操作， 这次是 让根节 
点处可 能违背 偏序树 属性的 元素向 下沉。 假设 可 能违背 偏序树 属性， 在 它中的 元素可 能小于 
其 子节点 J[2 柄 PJ[2/+1] 中的 一个或 两个。 我们 可以将 其与其 中一个 子节点 交换， 不过一 定要注 
意是与 哪一个 交换。 如果 与两个 子节点 中较大 的那个 交换， 那 么肯定 不会在 4/] 曾 经的两 个子节 
点间引 入 偏序树 属性的 破坏， 因 为较大 的那个 现在已 经是较 小那个 的父节 点了。 

图 5-48 中的 bubbleDown 函 数实现 了这一 操作。 在选 择了与 进 行交换 的子节 点后， 它会 
递归 地调用 自身， 以 消除新 位置上 的元素 J[z_] (也 就是 现在的 A[2 幻或 A[2i  +  1] ) 与其 新子节 
点之 间可能 存在的 偏序树 属性的 破坏。 参数 《 是堆 中的元 素数， 或者 说是最 后一个 元素的 下标。 

这个函 数有点 棘手。 如果 有 两个子 节点， 就 必须决 定将其 与哪个 子节点 交换， 所 以首先 
要在图 5-48 的第 (1) 行 假设较 大的子 节点是 J[2/]。 而如果 右子节 点存在 （即 )， 并 且右子 
节点 更大， 第 (2) 行的 测试就 会得到 满足， 并在第 (3) 行让 成为 邓] 的右子 节点。 

在第 (4) 行有两 项需要 测试的 内容。 首先， 在该堆 中有可 能真的 没有子 节点。 因 此要通 
过检测 是否有 child  ^  n 来确定 是否 为内部 节点。 第第二 项测试 是检测 ^[/] 是 否小于 
如 果两项 条件都 满足， 那 么在第 (5) 行 就要将 与 它较大 的那个 子节点 交换， 并在第 (6) 行递归 
地调用 bubbleDown, 如果 有必要 的话， 就 将违背 偏序树 属性的 元素进 一步向 下压。 
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void  deletemax(int  A  []  ,  int  *pn) 
{ 

swap (A,  1 ,  *pn) ; 

-- (*pn) ; 

bubbleDown(A,  1，  *pn) ; 


void  bubbleDown ( int  A [] ，  int  i ,  int  n) 

{ 

int  child; 
child  =  2*i; 

if  (child  <  n  &&  A[child+1]  >  A [child] ) 
++child; 

if  (child  <=  n  &&  A[i]  <  A  [child] )  { 
swap (A,  i ,  child) ; 
bubbleDown(A,  child,  n) ; 


图 5-48  bubbleDown 会 将违背 偏序树 属性的 兀素压 到合适 的位置 

可以 按照图 5-49 所示的 方式用 bubbleDown 实现 优先级 队列的 deletemax 操作。 
deletemax 函数接 受数组 J 和 指向堆 中当前 元素数 《 的指针 作为 参数。 这里省 略了对 《>0 的 
测试。 

在第 (1) 行， 将根 节点处 要删除 的元素 与最后 的元素 （在 A[n] 中） 交换。 技术 上讲， 应该 
返回 删除的 元素， 不过， 正 如所看 到的， 将其 放入不 再属于 该堆的 A [n] 也是可 以的。 

在第 (2) 行， 将《 减少 1, 实 际上就 是删除 现在处 于旧的 A[n] 中 的最大 元素。 因为现 在的根 
节 点可能 会违背 偏序树 属性， 所 以在第 (3) 行调用 bubbleDown  (A,l,n) ， 它会递 归地将 违背偏 
序树 属性的 元素向 下压， 直到 该元素 到达一 个不再 小于它 子节点 的位置 或是成 为叶子 节点， 不 
管哪种 情况， 都 不再会 违反偏 序树属 性了。 


图 5-49 用 堆实现 的优先 级队列 deletmax 操作 

♦ 示例 5.31 

假 设对图 5-45 中的 堆执行 deletemax 操作 。 在 交换了 J[l] 和 J[10] 之后， 将《 置为 9。 这样堆 
就 变成了 


在执行 bubbleDown  (A,  1,9) 时， 会将 置为 2。 因丸 4[2] 彡 ^[3], 所 以在图 5-48 的第 (3) 
行不 用增加 然后， 因为 而且 J[1]<J[2]， 所 以交换 这两个 元素， 得 到数组 


1  2 


18 


16 


接 着调用 bubbleDown  (A,  2 , 9 ) 。 这 要求我 们在第 (2) 行对 J [4] 和 J[5] 加以 比较， 比 较的结 
果 是前者 更大。 因此， 在图 5-48 的第 (4) 行， child  =  40 又因 为可知 J[2]<J[4]， 所 以交换 这两个 
元素， 并对 如下数 组调用 bubbleDown  (A,  4 , 9  ) 。 


5 

18 

16 

9 

7 

1 

9 

3 

7 

、 — /  \ ― y  \ ― /  \ ― /  \ ― /  \ — / 

12  3  4  5  6 

/ \  / - \  / - \  / - V  / - N  / - \ 


1 
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再下来 要比软 4[8] 秕 4[9]， 结果后 者更大 ，所以 bubbleDown(A,  4, 9) 的第 (4) 行 有^級 / =9。 
因为 J[4]<J[9]， 所以再 次进行 交换， 得 到数组 


18  9  16  7  7  1 


随 后调用 bubbleDown  (A,  9 , 9 ) 。 在第 (1) 行将 cMd 置为 18， 而 且因为 cMd<  « 为假， 第 (2) 
行的 第一个 测试会 失败。 同样， 第 (4) 行的测 试也会 失败， 所以 不用再 进行交 换或递 归调用 。这 
一 数组现 在已经 是还原 偏序树 属性的 堆了。 

5.9.4 优先级 队列操 作的运 行时间 

优先 级队列 堆实现 的每次 插入或 deletemax 操作 的运行 时间是 0(log«) 。 要知道 原因， 首先 
考虑 一下图 5-47 所示的 insert 程序。 该 程序前 两步花 的时间 显然是 0(1)， 此 外还要 加上对 
bubbleUp 的调用 所花的 时间。 因此， 需 要确定 bubbleUp 的运行 时间。 

粗略 地讲， 我 们注意 到每次 bubbleUp 递归 调用自 身时， 就 是离根 节点更 近了一 个节点 的位 
置。 因 为平衡 偏序树 的高度 大约是 log2« ， 所 以递归 调用的 次数是 0(log2«)。 因为对 bubbleUp 
的 每次调 用花的 时间是 0(1) 外加递 归调用 的时间 （ 如 果有的 话）， 所以 总时间 应该为 0(logn)  o 
更严格 地讲， 设 r ⑺ 是 bubbleUp  (A,  i) 的运行 时间， 那么 可以构 建如下 r(/) 的递推 关系。 
依据 。如果 /  =  1 ， 那么 r(/) 是 (9(1) ， 因 为很容 易看出 ，在 这种情 况下， 图 5-46 中的 bubbleUp 
程 序不会 执行任 何递归 调用， 只是 执行了 if 语句的 测试。 

归纳。 如果 01， 那么 if 语句 的测试 可能会 失败， 因 为邓] 不 再需要 继续上 升了。 若 该测试 
成功， 则花 (9 ⑴的时 间执行 并 以参数 z7  2  (若 / 为 奇数则 略小于 z7  2  ) 递 归调用 bubbleUp 
一次。 因此 T ⑺彡 r(// 2)  +  (9 ⑴。 

所以可 以说， 对于某 些常数 a 和乂 递 推关系 

r(l)  =  a 

T(i)  =T(i  /  2) +b,  i  >1  , 

能作为 bubbleUp 运行 时间的 上界。 如果将 r(//2) 展开， 就 得到， 对每个 /， 有 

T(i)=T(i/2J)+bj  (5.2) 

如 3.10 节中 那样， 可以 对/的 值加以 选择， 使得 7X//2 勺最为 简单。 在 这种情 况下， 可以令 /等于 
log2  i  , 这 样一来 z7  27_=l。 因此， （5.2) 式 就成了  r(/)  =a+Mog2/， 也 就是说 r(/) 是 (9(logz_) 。 因为 
bubbleUp 的运行 时间是  <9(log/) ， 所 以插入 操作的 运行时 间也是 0(logz_) 。 

现 在考虑 从图 5-49 中可以 看出， t/e/e 如紐 x 的运行 时间是 (9 ⑴ 加上 bubbleDown 
的运行 事件。 对图 5-48 所示 bubbleDown 函 数的分 析基本 上与对 bubbleUp 的分析 相同。 这里 
就 不再赘 述分析 过程， 直 接得出 bubbl eDown 和 的运 行时间 也是 0(log«) 这一 结论。 

5.9.5  习题 

(1) 考虑图 5-45 中 的堆， 说 明在下 列情况 下分别 会发生 什么。 

⑻ 插入 3 
(b) 插人 20 
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(c)  删除最 大元素 

(d)  再次 删除最 大元素 

(2)  通过对 / 的归 纳证明 (5.2) 式。 

(3)  通过对 违背偏 序树属 性的节 点的深 度进行 归纳， 证明图 5-46 中的 bubbleUp 函数可 以正确 地将有 
一处违 背偏序 树属性 的树 还原为 具有偏 序 树属性 的树。 

(4)  证明： 如果 A 之前是 大小为 《 -1 的堆， 那么 insert  (A,  x,  n) 函数 可以使 A 变为 大小为 《 的堆。 

(5)  通过对 违背偏 序树属 性的节 点的高 度进行 归纳， 证明图 5-48 中的 bubbleDown 函数 可以正 确地将 
有 一处违 背偏序 树属性 的树还 原为具 有偏序 树属性 的树。 

(6)  证明： deletemax  (A,  n) 可以让 大小为 《 的 堆变为 大小为 n- 1 的堆。 如果 A 之前不 是堆， 会发生 
什么？ 

(7)  证明： bubbleDown  (A,  1 ,  n) 处理 长度为 《的 堆所花 时间是 O(logn) 。 

(8)  ** 随 机选出 不同优 先级的 n 个元 素构 成堆， 该 堆是偏 序树的 概率是 多少？ 如 果没法 总结岀 一般规 
贝 IJ, 就编 写递归 函数计 算这一 表示为 《的 函数的 概率。 

(9)  实 现偏序 树不一 定要使 用堆。 假设使 用之前 用于二 叉树的 常规的 左子节 点右子 节点数 据结构 。展 
示如 何使用 这一结 构实现 bubbleDown、 insert 和 deletemax 函数。 

(10)  * 二叉查 找树也 可以用 作优先 级队列 的抽象 实现。 展示 如何使 用具有 左子节 点右子 节点数 据结构 
的二 叉查找 树实现 插入和 deletemax 操作。 这 些操作 在最坏 情况下 以及在 一般情 况下的 运行时 
间 分别是 多少？ 

5.10 堆 排序： 利用平 衡偏序 树排序 

现在要 介绍被 称为堆 排序的 算法。 它 会分两 个阶段 为数组 A  [1.  .n] 排序。 在 第一个 阶段， 
堆排 序会给 J 偏序树 属性。 堆排序 的第二 个阶段 会反复 从堆中 选出剩 余元素 中的最 大元素 ，直 
到堆只 由最小 的元素 构成， 这样就 完成了 对数组 ^ 的 排序。 


堆 


大 元素， 已排序 


图 5-50 堆排 序过程 中数组 J 的情况 

图 5-50 展示了 处于第 二阶段 的数组 2。 数组的 开头部 分具有 偏序树 属性， 而剩 下的部 分则是 
以 非递减 次序排 好序的 元素。 此外， 已 排序部 分是数 组中前 大的 元素。 在第二 阶段， / 的值 
可以从 〃减到 1， 从而 让一开 始为整 个数组 2 的堆， 最 终减少 到只剩 下位于 A  [1] 的最 小元素 。更 
详细 地讲， 第二阶 段由如 下步骤 组成。 

(1)  将 A[l.  .i] 中最 大元素 J[l] 与邓] 交换 。因为 A[i  +  1  •  .n] 中所有 元素都 不小于 A  [1 .  .  i] 
中的 元素， 而 且我们 刚刚将 A  [1 ..幻 中最大 的元素 移动到 了位置 /， 所 以可知 A  [i.  .n] 是数组 
中前 《-/-1 大的 元素， 而且 已经是 排好次 序的。 

(2)  /的 值是递 减的， 每次将 堆的大 小减少 1 。 

(3)  通过 下压根 节点处 的元素 （就 是刚 移动到 3[1] 的元 素）， 还 原开头 部分的 偏序树 属性。 

♦ 示例 5.32 

考虑图 5-45 中的 数组， 它是 具有偏 序树属 性的。 这里从 第二阶 段的第 一次迭 代开始 分析。 
在第一 步中， 要槪 4[1] 与 410] 交换， 得到： 
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12  3  4  5  6  7  8  910 

5  I  18  I  16  I  9  I  7  I  1  I  9  I  3  I  7  I  18 


第二步 是将堆 的大小 减小为 9， 而 第三步 则是通 过调用 bubbleDown  (1) 还原前 9 个 元素的 
偏序树 属性。 在 这次调 用中， ^[1] 和 ^[2] 进行了 交换。 

1  2  3  4  5  6  7  8  910 

18  5  16  9  7  1  9  3  7  18 


接着， d[2] 与 ^[4] 进行 了交换 。 

123456789  10 

18  9  16  5  7  1  9  3  7  18 


最后， d[4] 秕 4[9] 交换： 

1  23456789  10 

18  9  16  7  7  1  9  3  5  18 


至此， A[l.  .9] 具有 了偏序 树属性 Q 

第二阶 段的第 二次迭 代首先 要交换 d[l] 中 的元素 18 与 d[9] 中 的元素 5。 在将 5 往 下压到 合适位 
置后， 数组 就成了 


123456  7  89  10 

16  9  9  7  7  1  5  3  18  18 


到 这里， 数组 中最后 两个元 素已经 是最大 的两个 元素， 而且是 已经排 好次序 的。 
第 二阶段 会不断 继续， 直到 完成对 数组的 排序。 

123456789  10 

1  3  5  7  7  9  9  16  18  18 


5.10.1 数组 的堆化 

可以 非正式 地将堆 排序描 述为： 

for  (i  =  1;  i  <=  n;  i++) 

insert (ai) ; 

for  (i  =  1;  i  <=  n;  i++) 

delete'max 

要实 现这一 算法， 先将待 排序的 《 个元素 & 、 &、•••、 插人一 个最初 为空的 堆中。 然 后执行 《 
次 deletemax 操作， 按 从大到 小的次 序取岀 元素。 图 5-50 所 示的安 排让我 们可以 随着数 组中堆 
部分的 萎缩， 在数组 的尾部 存储已 删除的 元素。 

我们 已经在 5.9 节中 论证过 插入和 deletemax 操作的 运行时 间都是 0(log«) ， 而且每 种操作 
显然都 要执行 《 次， 所以这 是一种 可与归 并排序 媲美的 排序 算法。 其实， 在只 需要最 
大 的几个 元素， 而不需 要整个 已排序 表的情 况下， 堆排序 还能优 于归并 排序。 原因 在于， 要让 
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数组变 成堆， 如果 使用图 5-51 所示的 heapify 函数， 只需要 0( …的时 间就能 完成， 而不是 
(9(«log«) 。 


void  heapify (int  A[] ， 

int  n) 

{ 

int  i ; 

for  (i  =  n/2;  i  > 

= 1；  i — ) 

bubbleDown (A, 

i,  n) ; 

> 

图 5-51 数组 的堆化 


5.10.2  Heapify 的运 行时间 

首先， 图 5-51 中对 bubbleDowr^«/2 次调 用总 时间 看起来 应该是 (9(«log«) ， 因为我 们了解 
的 bubbleDown 运行 时间上 界只有 1叩《这 一个。 不过， 如果 利用向 下压元 素的序 列大多 非常短 
这一 事实， 就 可以得 到更紧 的边界 —— 00)。 

一 开始， 甚至都 不必堆 数组的 后半部 分调用 bubbleDown， 因为那 里的节 点全部 是叶子 节点。 

如果 数组的 第二个 四分之 一部分 - 也就是 A  [  (n/4)  +1.  .n/2] —— 中的元 素存在 比它们 的子节 

点 小的， 就可 以调用 bubbleDown —次。 不过， 它们的 子节点 是在数 组后半 部分， 都 是叶子 节点， 
因此， 在 4 的 第二个 四分之 一中， 最多调 用一次 bubbleDown。 同样， 在数 组的第 二个八 分之一 
中， 最多调 用两次 bubbleDown。 在数组 个区域 中调用 bubbleDown 的次 数如图 5-52 所示。 


«/16  n/8  n/4  n/2 


<3 

<2 

<1 

0 

图 5-52 随着 数组下 标不断 变大， 对 bubbleDown 的调用 次数迅 速减少 

现 在来计 算一下 heapify 调用了 多少次 bubbleDown, 其中包 括递归 调用。 从图 5-52 可看 
出， 可以将 A 分为 若干个 区段， 其中第 / 个区段 是由大 于《/2;+1 且不大 于《/2/ 的/ 对应的 A[j] 组 
成。 因此， 区段冲 的元素 数就是 n/2/+1 ， 而且 区段冲 每个元 素至多 调用欢 bubbleDown。 此 
外， />1叩2«的 区段都 为空， 因为 它们至 多包含 /7/21+1_=1/2 个 元素。 A[l] 是区段 log2/7 中 
唯一的 元素， 因此 需要计 算和值 

log2« 

£  in/2i+l  (5.3) 

i=l 

将 (5.3) 的有 限和扩 展为无 限和， 并提取 岀因式 《/2, 就可 以给岀 该和值 的上界 

(5-4) 

^  i=l 

现在必 须得岀 (5.4) 式中 和值的 上界。 可 以写为 

(1/2)  +  (1/4  +  1/4)  +  (1/8  +  1/8  +  1/8)  +  (1/16  +  1/16  +  1/16  +  1/16)  +  - 
可以 将这些 2 的 乘方的 倒数写 为如图 5-53 所 示的三 角形。 每一 行都是 公比为 1/2 的无穷 几何级 
数， 而其和 则是级 数中第 一项的 两倍， 正如图 5-33 右侧 所示。 各行 之和又 形成了 另一个 几何级 
数， 而它 的和是 2。 
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#include  <stdio.h> 

#define  MAX  100 
int  A[MAX+1] ; 

void  bubbl eDown ( int  A[] ， int  i,  int  n) ; 
void  deletemax(int  A  [] ， int  *pn) ; 
void  heapif y(int  A[] ， int  n) ; 
void  heapsort  (int  A  口， int  n) ; 
void  swap  (int  A[] ， int  i ,  int  j) ; 

main() 

int  i ,  n,  x; 

n  =  0; 

while  (n  <  MAX  &&  scanf  (,,0/od" ,  &x)  !  =  EOF) 
A [++n]  =  x; 
heapsort (A,  n) ; 
for  (i  =  1;  i  <=  n;  i++) 
printf  (,,0/0d\nn  ,  A[i] ) ; 

> 

void  heapsort  (int  A[] ， int  n) 
int  i ; 

heapif y (A,  n) ; 
i  =  n; 

while  (i  >  1) 

deletemax(A,  &i) ; 

> 


图 5-53 将 I  /  2' 排列为 三角和 

这样 一来， （5.4) 的 上界为 (《/2)x2  =  « 。 也就 是说， 在函数 heapify 中调用 bubbleDown 
的次数 不超过 《。 因 为已经 得出每 次调用 花费的 时间为 0(1)， 不含任 何递归 调用， 所以可 以得出 
结论： heapify 花的总 时间为 (9 ⑻。 

5.10.3 完整 的堆排 序算法 

堆排序 C 语言程 序如图 5-54 所示。 它 使用整 数数组 A[l.  .MAX] 表 示堆。 待排 序的元 素被插 
入 A[l.  .n] 中。 图 5-54 中函 数声明 的定义 包含在 5.9 节和 5.10 节中。 


图 5-54 对数 组进行 堆排序 


1/2  +  1/4  +  1/8  +  1/16  + … =1 
1/4  +  1/8  +  1/16  + … =  1/2 
1/8  +  1/16  + --  =  1/4 
1/16  + … =  1/8 


Qv 


第 (1) 行调用 heapify, 它将待 排序的 《 个元素 变成一 个堆。 第 (2) 行 将标记 堆尾的 i 初始化 
为《。 第 (3) 和第 (4) 行的 循环将 deletemax 应用 《-1 次。 我们应 该重新 审视图 5-49 中 的代码 ，会 
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看到 deletemax(A,  i) 会将 当前堆 中最大 的元素 （永 远是 A[l] ) 与 交换 这样 一来， /每 
次 会减少 1， 所 以堆的 大小也 会缩小 1。 在第 (4) 行被 deletemax  “ 删除” 的 元素现 在成为 数列已 
排序尾 部的一 部分。 它不大 于之前 的尾部 A [i  +  1.  .n] 中 的任何 元素， 而不 小于仍 在堆中 的任意 
元素。 因此， 声 明的属 性得到 保持， 堆中的 所有元 素都先 于尾部 的所有 元素。 

5.10.4 堆排 序的运 行时间 

刚刚已 经确定 了第⑴ 行中的 heapify 函数花 的时间 与《成 比例。 第 (2) 行显 然花了  (9 ⑴的 
时间。 因为第 (3) 行和第 (4) 行 的循环 每进行 一次， / 就减少 1， 所以循 环要进 行《-1 次。 第 (4) 行 
中对 deletemax 的调 用花的 时间是 (9(log«) 。 因此， 整个 循环的 总运行 时间为 (9(«log«) 。 这 
一时 间主导 了第⑴ 行和第 (2) 行 的运行 时间， 所以 heapsort 函数处 理《 个元素 的运行 时间是 
(9(«log«) 。 

5.10.5  习题 

(1)  对 3、 1、 4、 1、 5、 9、 2、 6、 5 这 列元素 应用堆 排序。 

(2)  * 给岀一 个运行 时间是 0(n) 的 算法， 使其 从具有 n 个元素 的表中 找岀前 丄 大的 元素。 

5.11  小结 

读者应 该从本 章中获 取如下 要点。 

□ 树是一 种用于 表示层 次化信 息的重 要数据 模型。 

□ 多种 涉及数 组和指 针结合 的数据 结构可 用于实 现树， 选择何 种数据 结构取 决于要 对树进 
行哪种 操作。 

□ 树节 点最重 要的两 种表示 分别是 最左子 节点右 兄弟节 点表示 和单词 查找树 （指向 子节点 
的 指针数 组)。 

□递 归算法 和证明 也适用 于树。 结构归 纳法是 普通归 纳模式 的一种 变形， 可 以有效 地对树 
中 的节 点数进 行完全 归纳。 

□ 二 叉树是 树模型 的一种 变形， 它的每 个节点 最多可 以有左 子节点 和右子 节点。 

□ 二叉 查找树 是带标 号的二 叉树， 它具有 “ 二叉查 找树属 性”， 即节点 左子树 的所有 标号都 
先于 该节点 的 标号， 而 且节点 右子树 的所有 标 号都后 于 该节点 的 标号。 

□词 典抽 象数据 类型是 可以对 其执行 插入、 删除 和查找 操作的 集合。 二叉查 找树可 以有效 
地实现 词典。 

□ 优 先级队 列是另 一种抽 象数据 类型， 是 可以对 其执行 插入和 deletemax 操作的 集合。 

□ 偏 序树是 种带标 号的二 叉树， 它具有 任意节 点的标 号都不 小于其 子节点 标号的 属性。 
□平 衡偏 序树除 最下层 之外的 各层都 被节点 占满， 而最下 层只有 靠左侧 的位置 被占据 ，它 
可 以通过 被称为 堆的数 组结构 实现。 这 一结构 提供了 一种复 杂度为 的优 先级队 
列 实现， 并 带来了 一种复 杂度为 0(«log«) 的排 序算法 —— 堆 排序。 

5.12 参 考文献 
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5.12 参 考文献  229 


可 以参考 Knuth  [1973] 来了解 二叉查 找树的 历史以 及大量 与各类 查找树 有关的 信息。 要了 解树的 
更 多高级 应用， 参见 Tarjan[1983]。 

Williams  [1964] 率先设 计了平 衡偏序 树的堆 实现。 Floyd  [1964] 描述 了堆排 序的一 个高效 
版本。 

Floyd,  R.  W.  [1964],  “Algorithm  245:  Treesort  3,”  Comm.  ACM1:\2,  pp.  701. 

Fredkin,  E.  [I960].  “Trie  memory,”  Comm.  ACM 3:4,  pp.  490-500. 

Knuth,  D.  E.  [1973].  The  Art  of  Computer  Programming,  Vol.  Ill,  Sorting  and  Searching,  2nd  ed., 
Addison-Wesley,  Reading,  Mass. 

Tarjan,  R.  E.  [1983].  Data  Structures  and  Network  Algorithms,  SIAM  Press,  Philadelphia. 
Williams,  J.  W.  J.  [1964].  “Algorithm  232:  Heapsort,”  Comm.  ACM1\6,  pp.  347—348. 


第 6 章 

表数 据模型 


和树 一样， 表也 是计算 机程序 中最基 础的数 据模型 之一。 从某 种意义 上讲， 表就是 树的简 
化 形式， 因为大 家可以 将表视 为每个 左子节 点都是 叶子节 点的二 叉树。 不过， 表 还能表 示其他 
一些 方面， 这些 方面与 我们之 前了解 的关于 树的那 些情况 不同。 例如， 我 们将要 谈论对 表的操 
作， 比如 压人和 弹出， 这是 没法用 树来模 拟的； 而且要 探讨字 符串， 这种 特殊而 重要的 表需要 
它 们自己 的数据 结构。 

6.1 本章主 要内容 

6.2 节介绍 了与表 有关的 术语。 本章 其余部 分将介 绍以下 主题。 

□ 表的基 本操作 （  6.3 节)。 

□ 由 链表数 据结构 （6.4 节） 和 数组数 据结构 （6.5 节） 实 现的抽 象表。 

□栈： 只能从 一端插 入和删 除的表 （  6.6 节)。 

□ 队列： 从 一端插 入从另 一端删 除的表 （6.8 节)。 

□ 字符串 和用来 表示字 符串的 特殊数 据结构 （  6.10 节)。 

此外， 我们还 将详细 研究表 的两类 应用。 

□运行 时栈， C 语言以 及其他 多种语 言用来 实现递 归函数 的方法 （6.7 节)。 

□ 找出两 个字符 串最长 公共子 序列的 问题， 及 其通过 “动态 规划” （或 者说 填表） 算 法得出 
的解 决方案 （  6.9 节)。 

6.2 基 本术语 

表是由 0 个或 多个元 素组成 的有限 序列。 如果 这些元 素全是 _ 型的， 那么就 说该类 型的表 
是  “7 表”。 因此， 就有整 数表、 实 数表、 结构 体表、 整数表 的表， 等等。 一般可 以预期 列表的 
元 素都是 某一类 型的。 不过， 因为 一种类 型可以 是多种 类型的 联合， 所 以单一  “ 类型” 的限制 
是 可以绕 开的。 

表通 常表示 为用逗 号分隔 表中各 元素， 并用一 对圆括 号将这 些元素 括起来 ，如 

(«i,  a2,  an) 

其中 fl, 者卩是 表中的 元素。 

在 某些情 况下， 我们将 不会把 逗号和 括号写 出来。 特 别要说 的是， 我 们将要 研究字 符串， 
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也就 是由字 符组成 的表。 字 符串一 般不会 写上逗 号或其 他分隔 符号， 而且 不会用 括号括 起来。 
字 符串的 元素通 常都是 用等宽 字体表 示的。 foo 就是由 3 个字 符组成 的表， 其中 第一个 字符为 f， 
而第 二和第 三个字 符都是 o。 

♦ 示例 6.1 

下 面是一 些表的 例子。 

(1)  小于 20 的质 数按照 从小到 大的顺 序组成 的表： 

(2,  3,  5,  7,  11，  13，  17,  19) 

(2)  稀 有气体 元素按 照原子 量从小 到大的 顺序排 列组成 的表： 

(氮 ，氖 ，氩 ，氪 ，氙 ，氡） 

(3)  平 年各月 天 数组成 的表： 

(31，  28，  31，  30，  31，  30，  31，  31，  30，  31，  30，  31) 

这个例 子提醒 我们， 同 一元素 可以在 某个表 中岀现 多次。 

♦ 示例 6.2 

一 行文本 是表的 另一个 例子。 组 成这行 文本的 单个字 符就是 表中的 元素， 所 以该表 就是个 
字 符串。 该字符 串通常 会包含 若干空 字符， 而 且一行 文本的 最后一 个字符 通常是 “换行 ”符。 

再 举一个 例子， 文档 也可视 作表。 这种情 况下， 表中 的元素 就是文 本行。 因此， 文 档就是 
由 表 作为元 素组成 的表， 具体说 来这些 作为元 素的表 都是字 符串。 

♦ 示例 6.3 

« 维空间 中的点 可以表 示为由 《 个实 数构成 的表。 例如， 单位 正方体 的顶点 可以表 示为图 6-1 
所 示的三 元组。 各 表中的 3 个 元素表 示作为 正方体 8 个角 （“顶 点”） 之一 的点的 坐标。 第 一个元 
素表示 x 坐标 （水 平方 向）， 第二 个表示 坐标 （ 向 页内方 向）， 第三 个表示 z 坐标 （垂 直方 向）。 


图 6-1 表示为 三元组 的单位 正方体 顶点 


6.2.1 表 的长度 


表的 长度是 指元素 在表中 岀现的 次数。 如果 表中元 素数为 0, 那 么就说 该表为 空表。 我们用 
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希 腊字母 e  (音 “ 伊普西 龙”） 表示 空表。 还可 以用一 对不包 含任何 内容的 圆括号 () 表示 空表。 
谨记， 长度 是按位 置计算 而不是 按不同 符号计 算的， 所 以在表 中岀现 你:的 某一符 号可以 为表增 
加长度 

♦ 示例 6.4 

示例 6.1 中表 (1) 的 长度是 8, 而表 (2) 的 长度是 6。 表 (3) 的 长度为 12, 因 为每个 月都要 占据一 
个 位置。 而表 中只有 3 个元素 这一事 实对表 的长度 来说是 无关紧 要的。 

6.2.2 表 的部分 

如果表 非空， 那 么它就 是由称 为表头 （head) 的 第一个 元素， 以及称 为尾部 （tail) 的表中 
其余 部分组 成的。 例如， 示例 6.1 中表 ⑺的表 头就是 “ 氮”， 而 该表的 尾部则 由其余 5 个元素 组成: 

(氖 ，氩 ，氪 ，氙 ，氡） 


元素和 长度为 1 的表 

谨记， 表的表 头是个 元素， 而表的 尾部却 是表。 此外， 我 们不应 该将表 的表头 （假 如为 a) 
与只 包含一 个元素 a 的 长度为 1 的表 （通 常会 写为带 括号的 (a) ) 混淆。 如 果元素 a 是 r 类 型的， 
那么表 ⑻就是 “T 表” 类 型的。 

如果不 能认识 到这种 区别， 就可 能在用 数据结 构实现 表时造 成编程 错误。 例如， 我 们可以 
用互相 链接的 单元表 示表， 这些 单元通 常是结 构体， 具 有存放 『 类型 元素的 element 字段 ，以 
及 存放指 向下一 单元的 指针的 next 字段。 那 么元素 a 就是 『 类型 的， 而 表⑻则 是具有 存放着 a 
的 e  1  emen  t 字 段和 存放着 NUL  L 的 next 字段的 单元。 


如 果有表 Z  =  (apa2, …, a„) ，则 对满足 1 彡/彡 彡 "的 / 和/ 来说， %+1 ，… ，七） 是 1的 子表。 
也就 是说， 子表是 由从某 个位置 / 开始 到某 个位置 /结束 的所有 元素组 成的。 还可以 说空表 e 是任 
何表的 子表。 

表 1  =  (^, 的 子序列 是指从 Z 中剔除 0 个或多 个元素 后形成 的表。 剩下 的这些 元素， 
也就 是构成 子序列 的这些 元素， 必须 按照与 出现在 Z 中相同 的顺序 排列， 不过子 序列的 元素在 Z 
中不一 定是连 续的。 请 注意， e 和表 Z 本身 总是 Z 的子 序列， 而且 Z 的子 表也是 Z 的子 序列。 

♦ 示例 6.5 

设 Z 是字 符串 abc， 那么 Z 的子 表有 

6,  a,  b,  c ,  ab,  be,  abc 

它们 也都是 L 的子 序列。 除此 之外， ac 也是子 序列， 但 它不是 子表。 

再举个 例子， 设 Z 是字 符串 abab， 那么子 表就有 

e,  a,  b,  ab,  ba,  aba,  bab,  abab 

这 些也是 Z 的子 序列。 除此 之外， Z 还有 子序列 aa,  bb， aab,  abb。 请 注意， bba 这样 的字符 
串不是 Z 的子 序列。 即便 L 中确实 有两个 b 和一个 a， 但 它们在 Z 中出 现的 顺序， 不 能让我 们通过 
石 U 中剔除 某些元 素构成 bba。 也就 是说， 在 Z 中， 第二个 b 后面 是没有 a 的。 

表前缀 是指从 表的开 头开始 的任意 子表。 表后缀 则是以 表的结 尾为末 尾的子 表^ 空表 e 是种 
特殊 情况， 它是任 意表的 前缀和 后缀。 
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♦ 示例 6.6 

表的 前缀有 e,  a,  ab 和 abc, 而它的 后缀是 e,  c,  be 和 abc。 


Car  和  Cdr 

在 Lisp 语 言中， 表 头叫作 car, 而尾部 则称为 o/r  (音 “cudder” ）。 术语 “car” 和 “cdr” 的 
名字 来源于 IBM  709 型计算 机中机 器指令 的两个 字段， Lisp 最早就 是在该 型计算 机上实 现的。 
car 表示  u contents  of  the  address  register” （地 址哥存 器的内 容）， 而 cdr 则表示  “contents  of  the 
decrement  register” （减 量寄存 器的内 容)。 某 种意义 上讲， 存储字 （memory  word) 可以 视为有 
着 element 和 next 字段 （分 别对应 car 和 cdr  ) 的 单元。 


6.2.3 表 中元素 的位置 

表中 的每个 元素都 有与之 关联的 位置。 如 果有表 (〜,&,•••,  而且 《彡1， 化 就是第 一个 

元素， a2 就是 第二个 元素， 以此 类推， 而 则是最 后一个 元素。 还 可以说 兩 出现 在位置 /。 除此 
之 夕卜， 免是在 叫-i 之后， 在 叫+1 之前。 而存 放元素 a 的位置 则称作 a 的出 现。 

表中位 置的数 量就等 于表的 长度。 同一 元素是 有可能 出现在 两个或 多个位 置的， 因 此不要 
把位 置和出 现在该 位置的 元素弄 混了。 例如， 示例 6.1 中的表 (3) 就有 12 个 位置， 其中有 7 个存放 
着 31， 分别 是位置 1、 3、 5、 7、 8、 10 和 12。 

6.2.4  习题 

(1)  针对表 (2,  7， 1， 8,  2) 回 答以下 问题。 

(a)  它的 长度是 多少？ 

(b)  它的前 缀有 哪些？ 

(c)  它的 后缀有 哪些？ 

(d)  它的 子表有 哪些？ 

(e)  它有多 少个子 序列？ 

(f)  它的 表头是 什么？ 

(g)  它的 尾部是 什么？ 

(h)  它包含 多少个 位置？ 

(2)  对 字符串 banana 重 复习题 ⑴中的 练习。 

(3) ** 在长度 为《多0 的 表中， 最 多可能 有多少 (a) 前缀； （b) 子表； （c) 子 序列？ 而最少 又分别 可能有 
多少？ 

(4)  如果表 Z 尾部的 尾部是 空表， 那么 Z 的长 度为 多少？ 

(5) * 胡图 写了个 由整数 表组成 的表， 不过他 省略了 括号， 结 果成了  ：  1， 2,  3。 而这可 以表示 很多由 
表组成 的表， 比如 （(1),(2, 3))。 那 么在不 含空表 作为元 素的情 况下， 所有 可能的 表都有 哪些？ 

6.3 对表 的操作 

可 以对表 执行多 种不同 的操作 。第 2 章中， 当我 们讨论 归并排 序时， 基本 问题就 是为表 排序， 
不过 我们还 需要将 表一分 为二， 再合 并两个 已排序 的表。 从形式 上讲， 为表 (ai, 化 ，…， 排序 
的操作 就是将 表替换 为由其 元素的 排列组 成的表 pi, 心,… , W)， 其中 … 4bn。 这里就 
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像之前 一样， < 表 示元素 的次序 关系， 比如 整数或 实数的 “小 于或等 于”， 或是字 符串的 词典次 
序。 合 并两个 已排序 表的操 作是用 给定的 两个表 构建一 个包含 其中相 同元素 的已排 序表。 多重 
性必 须得到 保持， 也就 是说， 如果某 个元素 a 在给 定的两 个表中 出现了 A 次， 那 么得出 的表中 a 
也岀 现妇 欠。 回顾 2 . 8 节就 能看到 对表的 这两 种操作 的 示例。 

6.3.1 插入、 删除 和查找 

回 想一下 5.7 节， “ 词典” 是 可以对 其执行 插入、 删 除和查 找操作 的元素 集合。 集合 与表之 
间 存在一 个重要 区别。 虽 然元素 在集合 中绝不 能出现 多次， 但正 如我们 所见， 元 素在表 中可出 
现 多次。 集合 的问题 将在第 7 章中 讨论。 不过， 表可 以实现 集合， 其 方式是 将集合 
中的元 素以任 意次序 放置到 表中， 例 如次序 (a h  &,•••,%)， 或次序 ，…, aO。 因此， 如果 
一 些对表 的操作 与对集 合的词 典操作 类似， 应该 不会让 人感到 奇怪。 

(1)  可 以向表 Z 中插 入元素 X。 从原则 上讲， X 可能出 现在表 中任何 位置， 而且 X 在 Z 中出 现一 
次或 多次都 是没关 系的。 我们 通过在 表中增 加一次 X 的岀现 来插入 X。 作 为一种 特例， 如果让 JC 
作 为新表 的表头 （这 样一来 z 就成 了尾 部）， 就是将 JC 压入表 Z 中。 如果 1  =(化《2 ，…, aj ， 那么 
得到的 表就是 (x,  a2, …, a„)。 

(2)  可 以从表 Z 中删 除元素 x。 这里， 是从 1 中删除 X 的一次 出现。 如果 X 出现 多次， 那 么就要 
指岀删 除哪个 X。 例如， 我们 可以总 是删除 第一个 X。 如果想 要删除 所有的 X， 就要重 复删除 操作， 
直到不 再剩下 X 为止。 如果表 Z 中未 出现 X, 那 么删除 操作就 不会造 成任何 影响。 作为 特例， 如果 
是删 除了表 的表头 元素， 使表 (x, 叫 a2, …, a„) 变成了 an), 就 说是弹 出表。 

(3)  可 以在表 Z 中查 找元素 X。 这 一操作 会返回 TRUE 或 FALSE, 具体 取决于 JC 是否 为表中 元素。 

♦ 示例 6.7 

设 L 为表 (1， 2,  3,  2)。 如果 我们选 择压入 1， 也 就是将 1 插人 到表头 位置， 则加 er?(l， Z) 的 
结果是 (1， 1， 2,  3,  2)。 而 若是将 1 插人到 末尾， 就得到 (1,  2,  3,  2， 1)。 此外， 这 个新的 1 还 
可 以被放 置到表  1 内部 3 个位 置中的 任何一 个上。 

如果删 除表中 第一个 2, 那么办 /e?ewajc(2,  Z) 的结 果是表 (1， 3,  2)。 若问 /oo 如〆 x， Z)， 则 
当 X 为 1、 2 或 3 时， 答案为 TRUE, 而当 X 为其他 值时， 答案为 FALSE。 

6.3.2 串接 

要 串接表 Z 和表 M， 就是以 Z 的元 素作 为开头 部分， 后 面接上 M 的元 素形成 新表。 也就 是说， 
如果 1  ，…, 七） ， WiM  =  (bl,b2,-,bk), 那么 i： 和 M 的串接 就是表 

(«i,  a2,  •••,  an,  bu  b2,  bk) 

请注意 ，空 表是串 接恒 等的。 也 就是说 ，对 任何 表 Z 都有 eZ  =Ze=Z 。 

♦ 示例 6.8 

如果 Z 是表 (1， 2,  3)， M 是表 (3， 1)， 肌 LMfi 是表 (1， 2,  3,  3， 1)。 如果 Z 是字 符串 dog, 
而 M 是 字符串 house， 那 傲是 字符串 doghouse。 

6.3.3 表的其 他操作 

另一 类对表 的操作 是与表 的特定 位置相 关的。 例如 
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(a) _/?r^(Z) 会 返回表 Z 的第一 个元素 （表 头）， 而 会返回 Z 的最 后一个 元素。 如果 1 
是 空表， 则这两 种操作 都会导 致错误 岀现。 

(b)  retrieve^ ,  Z) 操作会 返回表 L 中第 / 个位 置处的 元素。 如果 Z 的长 度小于 /， 就会 出错。 
除此 之外， 还有涉 及表的 长度的 操作。 常 见的包 括下列 两种。 

(c)  晰 Z) ， 返回表 Z 的 长度。 

(d) isEmpty(L), 如果 Z 为空表 则返回 TRUE, 否 则返回 FALSE。 而 hiVo 泌 m; 砂 (幻 会 返回相 
反的 结果。 

6.3.4  习题 

(1)  设 Z 是表 (3， 1， 4， 1， 5,  9)， 回 答下列 问题。 

(a)  delete(5 ,  Z) 的值是 多少？ 

(b)  deleted  ,  Z) 的值是 多少？ 

(c)  弹岀 Z 的结 果是 什么？ 

(d)  将 2 压人表 Z 的结 果是 什么？ 

(e)  如果 以元素 6 和表 Z 执行 /oo_i?， 会返回 什么？ 

(f)  如果 M 是表 (6,  7， 8)， 那么 ZM(Z 和 M 的 串接） 的值是 多少？  ML 的 值又是 多少？ 

(gX/ksf(X) 是 多少？  /a^(Z) 又是 多少？ 

(h)  retrieve^ ,  Z) 的 结果是 多少？ 

(i)  /engACL) 的值是 多少？ 

(j)  江 的值是 多少？ 

(2) ** 如果 Z 和 M 是表， 在 什么条 件下有 ZM=MZ? 

(3) ** 设 x 是元 素而 Z 是表， 那么在 什么条 件下以 下等式 为真？ 

(a)  delete [x,  insert(x,  L))  =  L 

(b)  insert^%,  delete(x,  L)\  =  L 

(c)  first(L)  =  retrieve(\,  L) 

(d)  last(L)  =  retrieve (^length(L),  Z) 


6.4 链表数 据结构 

实 现表的 最简单 方式就 是使用 链表。 每个链 表单元 都由两 个字段 构成， 一个 字段包 含着表 
中的 元素， 另一 个字段 则含有 指向链 表下一 单元的 指针。 简单 起见， 假设元 素都是 整数。 我们 
不仅 能使用 具体的 in t 类型 来表示 元素的 类型， 而 且能用 ==、 < 等标 准比较 运算符 来比较 元素。 
本节 习题将 会启发 读者编 写这些 函数的 变体， 使 其能处 理任意 类型的 元素， 而元 素的比 较则是 
由用户 定义的 函数进 行的， 比 如测试 相等性 的叫， 及测试 x 在次 序上是 否先于 j； 的 "(U)， 等等。 
接 下来， 要使 用来自 1.6 节中 的宏： 

DefCell(int,  CELL,  LIST); 

它可 展幵为 表示单 元和表 的标准 结构体 

typedef  struct  CELL  *LIST ; 
struct  CELL  { 
int  element ; 

LIST  next ; 


>； 
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请 注意， LIST 是指 向单元 的指针 类型。 实 际上， 每个 单元的 next 字 段既指 向下一 个单元 ，也 
指向表 中剩余 的所有 部分。 

图 6-2 展示 了表示 抽象表 Z  =  (apa2 ，…, aj 的 链表。 每个单 元都对 应一个 元素， 元素 a, •出现 
在第 z 个 单元的 element 字段。 对 /=  1,2, …， 1 而言， 第汁单 元中的 指针是 指向第 /+1 个单元 
的， 而最后 一个单 元中的 指针为 NULL, 表示这 是表的 末尾。 在表 之外是 个名为 L 的指 针， 它指 
向 该表的 第一个 单元， L 是 LIST 类 型的。 如果表 Z 为空， L 的 值就为 NULL。 


L  - ►  a1 - ►  a2 - ►  - ►  an 


图 6-2 表示表 Z  =  (&，％， …， 《„) 的链表 


表 和链表 


请 记住， 表是一 种抽象 模型， 或者说 是数学 模型。 而链 表则是 种简单 的数据 结构， 这在第 
1 章中提 到过。 虽然链 表是实 现表数 据模型 的一种 方式， 但正 如我们 所见， 它并 非实现 表数据 
模型 的唯一 方式。 无论 如何， 这 是再次 记住模 型与实 现模型 的数据 结构之 间区别 的良好 时机。 


6.4.1 词典操 作的链 表实现 

如 果用链 表表示 词典， 那 么该如 何实现 操作？ 以 下对词 典的操 作是在 5.7 节中定 义的。 

( 1 )  insert  {x,  D), 将元素 x 插 人词 典 Z) 中； 

(2)  delete  (x,  D), 从词典 Z) 中删 除元素 x; 

(3)  lookup  (x,  D), 确 定元素 x 是否 在词典 Z) 中。 

我们将 看到， 与之前 章节中 讨论过 的二叉 查找树 相比， 链表 是一种 更为简 单的实 现词典 的数据 
结构。 不过， 在使用 链表表 示时， 词典 操作的 运行时 间不像 使用二 叉查找 树时那 么少。 在第 7 
章中还 将看到 一种更 佳的表 示词典 的方式 —— 散 列表， 它 利用对 表的词 典操作 作为子 例程。 

这 里假设 我们的 词典包 含的是 整数， 而且 单元是 按照本 节开头 那样定 义的。 那么 词典的 
类 型就是 LIST, 也 是像本 节开头 那样定 义的。 含有元 素集合 {apa2 ，…， 的 词典可 以用图 
6-2 中 的链表 表示。 还有 很多其 他的表 可以表 示这一 集合， 因为 元素的 次序在 集合中 是无关 
紧 要的。 

6.4.2 查找 

要执行 /00 如〆 X， 乃)， 就要 对表示 乃的 表中的 每个单 元加以 检验， 看看 它是否 存放了 所需的 
元素 X。 如 果是， 就返回 TRUE。 如果 到达表 末仍未 发现; C， 就返回 FALSE。 一 如之前 那样， 定义 
的常量 TRUE 和 FALSE 表 示常数 1 和 0， BOOLEAN 则表 示定义 的类型 int。 递 归函数 lookup  (x ,  D) 
如图 6-3 所示。 

如果表 的长度 为《， 就说图 6-3 中 的函数 所花的 时间为 00)。 除了 结尾的 递归调 用外， 
lookup 花的 时间是 0 ⑴。 当调 用执行 之后， 剩 余的表 的长度 要比表 Z 的长 度小 1。 因此 对长度 
为《的 表执行 lookup 要花上 00) 的时 间应该 不会让 人感到 意外。 更 加正式 地讲， 以下递 推关系 
给出了 当第 二个参 数指向 的表 Z 长度为 n 时 1  ookup 的运行 时间。 
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void  delete (int  x,  LIST  *pL) 

{ 

if  ((*pL)  != 丽 LL) 

if  (x  ==  (*pL) ->element) 

(*pL)  =  (*pL) - >next ; 

else 

delete(x ,  & ( (*pL)->next) ) ; 


图 6-3 在链表 中查找 

依据。 r(0)=(9 ⑴， 因为当 Z 为 NULL 时， 没有进 行递归 调用。 

归纳。 r ⑻ =  r(«— 1)  +  (9 ⑴。 

正如我 们在第 3 章中 见过很 多次， 这一递 推关系 的解是 r(«)=o(«)。 因为含 《 个元 素的词 典是用 
长度为 《 的表表 示的， 所以对 大小为 《 的词 典执 行查找 操作所 花的时 间也是 。 

不幸 的是， 进行一 次成功 查找的 平均时 间也与 n 成比 例。 如果 要查找 的元素 JC 确定在 中， 
那么 JC 在 表中位 置的期 望值为 0  + 1)/2。 也就 是说， JC 会 等可能 地岀现 在从第 一个元 素到第 〃个元 
素中 的任一 位置。 因此， 递 归调用 lookup 的次 数的期 望值是 (《  +  1)/2。 因 为每次 调用所 花的时 
间是 0(1)， 所以 平均成 功查找 所花的 时间为 0(«)。 当然， 如果 查找不 成功， 那么 在到达 表末并 
返回 FALSE 之前， 已经进 行了全 部《次 调用。 

6.4.3 删除 

从链 表中删 除元素 X 的函 数如图 6-4 所示。 第二 个参数 PL 是 指向表 Z 的指 针， 而 不是表 Z 本身。 
这里 使用了  “ 按引用 调用” 的 风格， 因为我 们希望 delete 可以从 表中删 除含有 x 的单 元。 随着 
我 们沿着 表向下 移动， PL 中存放 着一个 指针， 它 指向的 是指向 “ 当前” 单元的 指针。 如 果在第 
(2) 行发现 x 在当 前单元 C 中， 就接 着在第 (3) 行改 变指 向单元 C 的指 针， 使得 它指向 该表中 紧跟在 
C 之后 的那个 单元。 如果 C 正好 在表的 末尾， 之 前指向 C 的指针 就成了 NULL。 如果 jc 不是 当前的 
元素， 那 么在第 (4) 行 就递归 地从表 尾删除 X。 

请 注意， 如 果表为 空表， 那么第 (1) 行的 测试会 使该函 数在没 有任何 动作的 情况下 返回。 这 
是因为 X 不会岀 现在空 表中， 而 我们不 需要采 取任何 措施来 从词典 中删除 X。 如果 乃是表 示词典 
的 链表， 那 么调用 delete  (x,  &D) 就会 初始化 从词典 D 中删除 x 的操 作。 


图 6-4 删 除元素 

如 果元素 x 没有岀 现在表 示词典 Z) 的链 表中， 那么 就会继 续向下 运行直 到表的 末端， 为每个 
元 素花上 0 ⑴的 时间。 分析 过程类 似对图 6-3 中 lookup 函数的 分析， 这里 就将细 节留给 读者自 
己来分 析吧。 因此， 如果乃 有《个 元素， 那么删 除不在 Z) 中 的元素 所花的 时间是 0(«)。 如果 X 在 


BOOLEAN  lookup (int  x,  LIST  L) 

{ 

if  (L  ==  NULL) 
return  FALSE; 
else  if  (x  ==  L->element) 
return  TRUE; 
else 

return  lookup (x,  L->next) ; 
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void  insert (int  x，  LIST  *pL) 

{ 

if  ((*pL)  ==  NULL)  { 

(*pL)  =  (LIST)  malloc (sizeof (struct  CELL)); 
(*pL)->element  =  x; 

(*pL)->next  =  NULL; 

> 

else  if  (x  !=  (*pL) - >element) 
insert (x,  & ( (*pL)->next) ) ; 


词典 D 中， 那 么平均 下来， 将会 在表中 接近中 点的位 置遇到 x。 因此， 平均 要查找 (《  + 1)/2 个单 
元， 而成 功删除 操作的 运行时 间也是 0(«)。 

6.4.4 插入 

向链 表中插 人元素 X 的函 数如图 6-5 所示。 要插入 X， 需 要确定 x 没有 出现在 表中。 如 果它已 
经在 表中， 就什 么都不 用做。 如果 JC 未 岀现， 就必 须将其 添加到 表中。 将 x 添加到 表中的 什么位 
置并不 重要， 不过图 6-5 中的函 数是将 x 添加 到表的 末尾。 在第 (1) 行检 测到 末尾的 NULL 时， 就确 
定 x 不在 表中。 那么， 第 (2) 到第 (4) 行 就会将 x 添加到 表尾。 

如 果表非 NULL, 第 (5) 行就 会检查 x 是否 在当前 单元。 如果 JC 不在 这里， 第 (6) 行就会 对表的 
尾部进 行递归 调用。 如 果在第 (5) 行 就找到 X， 那 么函数 insert 就会 终止， 不 进行任 何递归 调用, 
而且不 会对表 Z 造成 任何 改变。 调用 insert  (x,  &D) 会初 始化将 x 插入 词典 D 的 操作。 


图 6-5 元素 的插入 

与查找 和删除 的情况 一样， 如果在 表中没 有找到 X， 就会到 达表的 末端， 花费 00) 的时 间。 
如 果找到 X， 那么 平均会 走过表 中一半 位置， 而且平 均而言 仍会花 0(«) 的时 间。 

6.4.5 带 重复的 插入、 查找 和删除 

如果 在执行 插入操 作之前 不检查 X 是否 岀现在 表中， 可 以让插 入操作 运行得 更快。 不过， 这 
样做 的后果 就是， 在表示 词典的 表中可 能有某 一元素 的多个 副本。 

要 执行词 典操作 乃)， 只 要创建 一个新 单元， 将 x 放进 去， 并将该 单元压 人表示 乃的 
表 的开头 即可。 这一操 作花费 0 ⑴的 时间。 

查 找操作 就和图 6-3 中所示 的一模 一样。 唯一 的不便 就是可 能要查 找更长 的表， 因为 表示词 
典乃 的表的 长度可 能会 大于乃 中的成 员数。 


重 提抽象 和实现 

大 家可能 会感到 惊讶， 我 们在表 示词典 的表中 使用了 重复， 因为 抽象数 据类型 DICTIONARY 
被 定义为 集合， 而 集合是 不含重 复的。 不过， 有 重复的 并不是 词典， 而实现 词典的 数据结 构可以 
有 重复。 但是， 即便当 JC 在链表 中多次 现身， 它在链 表表示 的词典 中也只 会出现 一次。 


① 在后 面的分 析中， 当说到 长度为 《的 表的中 点时， 将 会使用 “ 一半” 或“ 《/2  ”  这样的 说法。 严格 地说， («  +  1)/2 
要更加 精确。 


\ ― /  \ — / 、 — /  \ — /  \ ― /  、 — / 

12  3  4  5  6 

/ - \  / V  / V  / - V  / - \  / - \ 
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删除操 作稍有 区别。 在 遇到含 有元素 x 的单 元时， 我 们不能 停止对 x 的查 找， 因为表 中可能 
还有 x 的其他 副本。 因此， 就算表 Z 的表 头包含 X， 也 必须将 X 从 Z 的尾部 删除。 这样 一来， 我们不 
只要处 理更长 的表， 而 且要实 现成功 的删除 操作， 就 必须查 找每个 单元， 而不像 表中不 允许出 
现 重复的 情况时 那样是 平均查 找表的 一半。 这 些带重 复的词 典操作 的细节 就留作 本节习 题了。 

总之， 通 过允许 重复， 可以让 插人操 作变得 更快， 时间是 0 ⑴ 而不是 0(«)。 不过， 成功的 
删除操 作需要 对整个 表进行 查找， 而不是 平均查 找一半 列表。 而 且对于 查找和 删除， 必 须要处 
理 比不允 许重复 时更长 的表， 虽 然长多 少取决 于插入 词典中 已存在 元素的 频率有 多高。 

要选 择哪种 方法是 有点技 巧的。 显然， 如果插 入操作 占主导 地位， 就应 该允许 重复。 在极 
端情 况下， 如果 只插人 而从不 查找或 删除， 就能让 每次操 作具有 0 ⑴ （而 不是 的性能 。 ® 
如 果有理 由确定 从不会 插入词 典中已 存在的 元素， 就可以 使用快 速插入 和快速 删除， 那 样只要 
找 到待删 除元素 的一次 出现就 可以停 下了。 另一 方面， 如 果有可 能插人 重复的 元素， 而 且查找 
或 删除又 占主导 地位， 那么 在插入 X 之前最 好还是 先检查 一下它 是否已 经存在 于表中 ，就 如图 6-5 
所示的 insert 函数 那样。 

6.4.6 表示词 典的已 排序表 

另一 种方案 是让表 示词典 的表中 的元素 一直按 照递增 次序排 好序。 然后， 如果希 望查找 
元素 X， 只要 行进到 JC 可能岀 现的 位置就 行了， 平均 而言， 也 就是表 的中间 位置。 如果遇 到大于 X 
的元素 ，就说 明在后 面的部 分没希 望找到 X 了 。因 此就不 用沿着 表行进 以继续 进行失 败的查 找了。 
这样 做可以 节省为 2 的因数 （开销 变为一 半）， 不过 确切的 因数是 有些模 糊的， 因 为在表 中每遇 
到 一个元 素就必 须询问 按照排 序次序 x 是否 在其 之后。 不过， 在进行 插入和 删除操 作时， 在不成 
功的查 找上也 能节约 同样的 开销。 

用 于已排 序表的 查找函 数如图 6-6 所示。 把图 6-4 和图 6-5 所示函 数修改 为处理 已排序 表的版 
本 的工作 就留作 本节习 题了。 


BOOLEAN  lookup (int  x,  LIST  L) 

{ 

if  (L  ==  NULL) 
return  FALSE; 
else  if  (x  >  L->element) 

return  lookup (x,  L->next) ; 
else  if  (x  ==  L->element) 
return  TRUE ; 

else  / -k  这里有  x  <  L->element , 

因此 x 不可 能在已 排序表 L 中 V 

return  FALSE; 


图 6-6 在已 排序表 中查找 


6.4.7 各 种方法 的比较 

图 6-7 中的表 格表明 了对 我们讨 论过的 3 种 基于表 的词典 表示， 执行 3 种 词典操 作各自 必须查 
找的单 元数。 设词 典中有 《个 元素， 如果 不允许 重复， 这也 就是表 示词典 的表的 长度。 在 允许重 


① 如果 从来都 不管词 典中有 什么， 还 干嘛费 事往里 面插东 西呢? 
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复出 现时， 我们用 m 来表 示该表 的长度 。我 们知道 m^n  , 但 不知道 册比《 大多少 。在 用到 n/2^n 
这样的 表示方 式时， 意 思是当 查找成 功时， 平均 查找了 《/2 个单 元， 而 在不成 功时， 平 均查找 
了《个 单元。 而《/2^爪 这样 的项则 表示， 在 一次成 功的查 找中， 我们在 看到要 查找的 元素之 
前， 平均 会看到 词典中 《/2 个元素 ®， 但在失 败的查 找中， 就 必须走 完整个 长度为 m 的表， 直到 
到达其 末端。 


插  入 

删  除 

查  找 

无重复 

n  1 1  —  n 

n  1 1  —  n 

n  1 2  —  n 

有重复 

0 

m 

n/  2^m 

已排序 

n !  2 

nil 

n  /  2 

图 6-7  3 种用链 表表示 词典的 方法所 查找的 单元数 

请 注意， 除了有 重复情 况下的 插入操 作外， 这些 运行时 间都要 比数据 结构为 二叉查 找树时 
词 典操作 的平均 运行时 间长。 正如 我们在 5.8 节中 所见， 在 使用二 叉查找 树时， 词 典操作 平均所 
花 时间为 0(log  n)  0 


明 智的测 试次序 

请 注意图 6-6 的 程序中 3 项测试 的次序 。 首先 要测试 i： 不为 NULL。 我们没 有其他 的选择 ，因 
为如果 i^NULL, 则 其余两 项测试 会导致 错误。 设； f 是 L->element 的值。 那么除 了最后 一 个 
单 元外， 在每 个访问 过的单 元都有 。 因为 如果有 x  =  ， 就 是成功 完成了 查找 ，而如 果 ， 
就是没 能找到 JC 而 终止。 因为首 先要测 试^>7, 而且 当且仅 当它失 败时， 我们才 需要区 分另两 
种 情况。 测试的 这种次 序遵循 这样一 个基本 原则： 要首先 测试最 平常的 情况， 并 因此节 约平均 
要 执行的 总测 试数。 

如果 访问了 A: 个 单元， 就要测 试灸次 Z 是否为 NULL, 而且 要测试 A: 次 X 是否大 于少。 并 且还要 
测试一 次是否 tx  =  y  , 这样总 共 要进行 2灸 + 1 次 测试。 也就 是说， 只比图 6-3 中利用 未 排序表 
的 lookup 函数 成功找 到元素 x 的情况 多一次 测试。 如果 未找到 该元素 ，可 以预 期在图 6-6 中使 
用的测 试要 比在图 6-3 中使 用的测 试少 得多， 因为图 6-6 中 平均只 要检查 一半单 元后 就会 停止。 
因此， 虽 然不管 使用已 排序表 还是使 用非排 序表， 词典操 作的大 0 运行时 间都是 ， 但是如 
果 使用已 排序表 的话， 通常会 有常数 因子上 的轻微 优势。 


6.4.8 双 向链表 

在链 表中， 要从某 个单元 向表的 开头移 动不是 那么容 易的。 而 双向链 表是这 样一种 数据结 
构， 它让表 中向前 和向后 的移动 都非常 方便。 整数双 向链表 中的单 元包含 3 个 字段： 

typdef  struct  CELL  *LIST ; 
struct  CELL  { 

LIST  previous ; 
int  element ; 

LIST  next ; 

>； 


①事 实上， 因为可 能存在 重复， 所以 在看到 《/2 个 不同元 素前， 可能已 经检查 了多于 《/2 个 元素。 
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void  delete(LIST  p,  LIST  *pL) 

{ 

/*  p 是指向 待删除 单元的 指针， 

而 pL 是指 向链表 的指针 */ 

if  (p->next  ! =  NULL) 

p->next->previous  =  p->previous ; 
if  (p->previous  ==  NULL)  /*  p  指 向第一 个单元  */ 
(*pL)  =  p->next ; 

else 

p->previous->next  =  p->next ; 


多出 来的这 个字段 含有指 向表中 前一个 单元的 指针。 图 6-8 展示了 表示表 Z  =  …, 的 

双向链 表数据 结构。 


• 

a2 

an 

參 

L - ► 

图 6-8 表示表 Z  =  (ai， ％，•••，％,) 的双 向链表 


双 向列表 结构上 的词典 操作基 本与单 向链表 上的那 些操作 相同。 要了 解双向 链表的 优势， 
可以 考虑只 给定指 向元素 •所在 单元的 指针时 删除该 元素的 操作。 在 单向链 表中， 我们 要通过 
从头 开始查 找该表 来找岀 前一个 单元。 而有 了双向 链表， 就 可以通 过如图 6-9 所示 的一系 列指针 
操作， 在 0(1) 时 间里完 成这一 操作。 


图 6-9 从 双向链 表中删 除元素 

图 6-9 中 所示的 delete  (p,pL) 函数 接受指 向待删 除单元 的指针 ;?， 以及 指向表 Z 本身 的指 
针 作为 参数。 也就 是说， 是指 向表中 第一个 单元的 指针的 地址。 在图 6-9 的第 (1) 行中， 我 
们要检 查;? 有没有 指向最 后一个 单元。 如 果没有 的话， 那 么在第 (2) 行， 我 们会让 接下来 那个单 
元的反 向指针 指向在 ^ 之前 的那个 单元。 如果 正好指 向第一 个单元 的话， 就让 它等于 NULL。 

第 (3) 行 会测试 p 是否为 第一个 单元。 如 果是， 那 么在第 (4) 行我们 会让〆 指向 第二个 单元。 
请 注意， 在 这种情 况下， 第 (2) 行会让 第二个 单元的 previous 字段 变为 NULL。 如 果;? 不 是指向 
第一个 单元， 那 么在第 (5) 行我 们会让 前一个 单元的 正向指 针指向 p 之后 的那个 单元。 这样 一来, 
由 指向 的那个 单元就 顺利地 与表分 离了， 其前一 个单元 和后一 个单元 现在是 互相指 向的。 

6.4.9 习题 

(1)  为⑻图 6-4 中 delete 函数， （b) 图 6-5 中 insert 函数 的运行 时间建 立递推 关系。 它 们的解 各是多 
少？ 

(2)  为 使用带 重复链 表的词 典操作 插入、 查 找和删 除编写 C 语言 函数。 

(3)  为如图 6-6 那样使 用已排 序表的 插入和 删除操 作编写 C 语言 函数。 

(4)  编写 C 语言 函数， 使其 能在双 向链表 中由; 7 指 向的单 元之后 的新单 元中插 人元素 X。 图 6-9 是 用于删 
除 的相似 函数， 不 过对插 入操作 来说， 我们不 需要知 道表头 i：。 

(5)  如 果使用 双向链 表数据 结构， 一 种选择 是不通 过指向 单元的 指针表 示表， 而通 过具有 未使用 
element 字段的 单元来 表示。 请 注意， 这一  “ 表头” 单元本 身并非 表的一 部分 。该 “ 表头” 的 next 
字段指 向该表 真正的 第一个 单元， 而这 第一个 单元的 previous 字段则 指向该 “ 表头” 单元。 然 
后可以 在不知 道表头 Z  (正 是我 们在图 6-9 中 需要知 道的） 的情况 下删除 由指针 p 指向的 单元， 而 
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不 是那个 未使用 element 字段的 “表 头”。 编写 C 语言 函数， 使其利 用这里 描述的 格式从 双向链 
表 中删除 元素。 

(6)  编 写递归 函数， 实现 使用链 表数据 结构的 (a)  /-eMeveG， Z)  ;  (b)  length(L)  ；  (c)  last(L)  0 

(7)  扩 展下列 函数， 使其单 元可以 接受任 意类型 ETYPE 的 元素， 使 用函数 eg(x，7) 测试 x 和 7 是否 相等， 
并用 lt{x,y) 分辨 x 是否在 ETYPE 类 型元素 的次序 下先于 j；。 

(a)  图 6-3 中的 /ooA：wp。 

(b)  图 6-4 中的 t/e/efc。 

(c)  图 6-5 中的 

(d)  使 用带重 复表的 insert、 delete 和 lookup。 

(e)  使 用已排 序表的 delete 和 lookup 。 


6.5 表基 于数组 的实现 

实现表 的另一 种常见 方式是 创建由 下列两 部分组 成的结 构体。 

(1)  存放 元素的 数组； 

(2)  记 录表中 当前元 素数量 的变量 length。 

图 6-10 展示了 如何使 用数组 A  [0  .  .MAX-1] 表示表 。 元素 a。、％、 …、 存储在 
A  [  0  .  .  n- 1  ] 中， 而且  length  =  n 。 


图 6- 10 存放表 (a。，％ 的数组 A 

就像在 6.4 节中 那样， 我 们假设 表中元 素都是 整数， 并邀 请读者 将这些 函数一 般化为 支持任 
意 类型。 表 基于数 组的实 现所使 用结构 体的声 明如下 

typedef  struct  { 
int  A [MAX] ; 
int  length; 

>  LIST; 

这里的 LIST 是包含 两个字 段的结 构体， 第 一个字 段是存 储元素 的数组 A， 而第二 个则是 含有表 
中当前 元素数 目的整 数变量 length。 MAX 是 个用户 定义的 常量， 用 于为存 储在表 中的元 素的数 
目确定 边界。 

与 表的链 表表示 相比， 基于数 组的表 示从多 个方面 讲都更 方便。 不过， 它会 受到表 不能长 
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BOOLEAN  lookup (int  x,  LIST  *pL) 

{ 

int  i; 

for  (i  =  0;  i  <  pL->length;  i++) 
if  (x  ==  pL->A[i]) 
return  TRUE; 
return  FALSE; 


过 数组的 限制， 这可能 导致插 入操作 失败。 在 链表表 示中， 只要有 可用的 计算机 内存， 就可以 
让 表增长 到尽可 能长。 

对基 于数组 的表执 行词典 操作， 所 花的时 间与对 链表表 示的表 执行这 些操作 所花的 时间基 
本 相同。 要插人 X， 先查找 X。 如果 没找到 X， 就 要检查 是否有 /engt/?  <MAX0 如果 不小于 
MAX, 就有 岀错的 情况， 因为 没法将 新元素 装入数 组中。 否贝 I] ， 我们将 X 存储在 A  [  1  eng th  ] 中， 
并将 “辦 增加 1。 要删除 X， 还是 先查找 X， 如果 找到， 就 将数组 A 中 X 之后 的元素 都下移 一个位 
置， 然后将 /e«g 決减 1。 插 入和删 除的具 体函数 实现留 作本节 习题。 接下 来要介 绍查找 操作的 
细节。 

6.5.1 线 性查找 

图 6-11 是实 现查找 操作的 函数。 因 为数组 A 可能 很大， 所以 选择传 递指向 LIST 类型 结构体 
的指针 PL 作为 —％? 的形式 参数。 在该函 数中， 结构体 的两个 字段可 以称为 pL->A[i] 和 
pL->length0 

从 /  =  0 开始， 第 (1) 至第 (3) 行的 for 循环会 依次检 查数组 的每个 位置， 直到它 到达最 后岀现 
的 位置， 或 是找到 X。 如 果找到 X， 就返回 TRUE。 如果它 检查了 表中的 每个元 素而没 有找到 X， 
就 会在第 (4) 行返回 FALSE o 这种 查找方 法 叫作线 性查 找或顺 序 查找。 


图 6-11 通过 线性查 找进行 查找操 作函数 

不难 理解， 如果 x 在表 中， 那么 在找到 X 之前， 平 均要查 找数组 A [0.  .length- 1] 的 一半。 
因此， S«Slength 的值， 那 么执行 一 次查 找要花 (9 ⑻的 时间。 如果 x 未 出现， 就要查 找完整 
个数组 A [0.  .length-1] ， 再 次需要 的时 间。 这样的 表现， 与对用 链表表 示的表 执行查 
找操 作的表 现是一 样的。 


常数 因子在 实际应 用中的 重要性 

纵观第 3 章， 我 们一直 在强调 运行时 间的大 0 度 量的重 要性， 而且可 能给大 家留下 了这样 
的 印象： 大 0 是唯一 的影响 因素， 或是 说任何 0(n) 算法 在执行 某项任 务时都 和其他 (9(«) 算法 
有着 同样的 表现。 不过在 这里， 在对哨 兵的讨 论中， 以及 其他几 节中， 我们都 会细究 隐藏在 0{n) 
之中 的常数 因子。 原因很 简单。 尽管 运行时 间的大 0 度 量主导 了常数 因子， 但研 究该主 题的人 
都能 很快地 了解这 一点。 例如， 我们了 解到只 要《 大到足 以产生 影响， 就要使 用具有  <9(«log«) 
运行 时间的 排序。 软件 性能上 的竞争 优势， 往往源 于对具 有正确 “大 0”  运行时 间的算 法中的 
常数 因子的 改进 ，而 这种优 势通常 能决 定软 件产品 的 成败。 
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BOOLEAN  lookup (int  x,  LIST  *pL) 
{ 

int  i ; 

pL->A [pL->length]  =  x; 
i  =  0; 

while  (x  ! =  pL->A  [i] ) 
i++; 

return  (i  <  pL->length) ; 


6.5.2 带哨兵 的查找 

通过将 x 临时插 入表的 末尾， 可以 简化图 6-11 中 for 循环的 代码， 并为 该程序 提速。 在表末 
端 的这个 x 就叫 作哨兵 （ sentinel  )。 这项 技术最 先是在 3.6 节附注 栏内容 “更具 防御性 的程序 设计” 
中提 到的， 而 它在这 里有着 重要的 应用。 假设 在表的 末端始 终有一 个额外 的槽， 就可以 使用图 
6-12 中的程 序查找 X。 该 程序的 运行时 间仍为 00)， 但比 例常数 更小， 因为图 6-12 所示程 序的循 
环 体和循 环测试 所需的 机器指 令数， 通常 小于图 6- 1 1 所示 程序所 需的。 


图 6-12 进 行带哨 兵查找 的函数 

第 (1) 行将 哨兵放 置在刚 好越过 该表的 位置。 请 注意， 因为 / ⑼ g 淡不 会发生 改变， 所 以这个 x 
并非 真正是 表的一 部分。 第 (3) 和第 (4) 行 的循环 会增加 /， 直到我 们找到 X。 请 注意， 因为 设置了 
哨兵， 所以即 便表是 空表， 还 是保证 能找到 X。 在找到 X 之后， 第 (5) 行会测 试是找 到了表 中真正 
出现的 x( 也 就是， i<length  ), 还 是找到 了哨兵 （也 就是， i  =  length  )0 请 注意， 如果 使用哨 
兵， 就一 定要严 格保证 /⑼辦力 小于 M4I， 否 则就没 有位置 放置哨 兵了。 

6.5.3 利用二 叉查找 对已排 序表进 行查找 

假设表 z 中的元 素％、 ^ 、…、 经按照 非递减 次序排 好序。 如果 该已排 序表存 储在数 
组 A[0..n-1] 中， 就可以 利用二 叉查找 技术， 从而带 来可观 的速度 提升。 我们 首先必 须找到 
中 间元素 的下标 m, 也就是 说爪=[0-1)/2]。 ® 然后 将元素 X 与』 [m] 相 比较。 如 果它们 相等， 
就已 经找到 x  了。 如果 x<  A[m] , 就递归 地重复 对子表 A  [  0  .  .m-1] 的 查找。 如果 x>  d[m] ， 就 
递归 地重复 对子表 A[m+1.  .n-1] 的 查找。 无论 何时尝 试查找 空表， 都会 报错。 图 6-13 展示了 
分区 过程。 

函 数 binsear ch 的代 码要将 X 放置 在如图 6- 1 4 所 示的已 排 序数组 J 中。 该函 数使用 变量 1  ow 
和 high 表示 jc 可能 岀现的 区域的 下界和 上界。 如 果较低 的区域 超过了 较上的 区域， 那么 就没找 
到 X, 此时 函数就 会终止 并返回 FALSE。 

否则， binsearch 会通过 m/i/ =  L(/ow  +  /? 妙 )/2」 计算该 区域的 中点。 然后该 函数会 检查区 
域正中 的元素 ， 以确定 x 是否 在该 位置。 如果 JC 不在该 位置， 而 且小于 ， 就 继续在 
中 点下方 的区域 查找， 要是 x 大于 就继 续在中 点上方 的区域 查找。 这一 思路概 括了图 
6-13 所示的 划分， 其中 /ow 是 0， 而咏 /?是《-1。 


① La」 表示 a 向下 取整， 就是 a 的整数 部分。 因此 1_6.5」=  6， 而且 1_6」=  6。 而 「a1 表示 <7 向上 取整， 是大 于等于 fl 的 
最小 整数。 例如 「6.5>7 ， 而 
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BOOLEAN  binsearch(int  x,  int  A[]  ,  int  low,  int  high) 

{ 

int  mid; 

if  (low  >  high) 
return  FALSE; 
else  { 

mid  =  (low  +  high) /2 ; 
if  (x  <  A [mid] ) 

return  binsearch(x,  A，  low，  mid-1) ; 
else  if  (x  >  A [mid] ) 

return  binsearch(x,  A，  mid+1 ,  high) ; 
else  /*  x  ==  A  [mid]  */ 
return  TRUE; 


L(«-l)/2」 


n~l 

图 6 - 


如果 x<J  [L(n-l)/2j] 
查 找这里  ' 


如果 x<J  [L(«-l)/2」] ， 
查 找这里 


:叉 查找将 区域一 分为: 


利用归 纳断言 “如果 x 在数 组中， 那么 它一定 出现在 A[low.  .high] 这 个区域 内”， 就可以 
证 明函数 binsearch 的正 确性。 证明过 程要对 /z 妙 -/mv 的 差进行 归纳， 这留作 本节的 习题。 
在 每次迭 代中， binsearch 要么 

(1)  在到 达第⑻ 行时找 到元素 X， 要么 

(2)  在第 (5) 行或第 (7) 行， 对长 度至多 为待查 找数组 A  [low.  .high] 长 度一半 的子表 递归调 
用 自身。 


图 6-14 使用二 叉查找 进行查 找操作 的函数 

由长度 为《 的数组 开始， 在其长 度变为 1 之前， 我们 最多对 有待查 找的数 组进行 1%2«次 分割。 
于 是我们 要么在 A  [mid] 找到 X， 要 么在对 空表调 用该函 数后仍 未找到 jc。 

想要 在具有 《 个元素 的数组 A 中寻找 X， 可 以调用 binsearch(x,A,  0,n-l) 。 我 们知道 
binsearch 最 多会调 用自身 (9(log«) 次。 在 每次调 用中， 都 要花费 (9(1) 的 时间， 再加上 递归调 
用 的 时间， 因此二 叉查找 的运行 时间是 0(logn)0 这是可 与平 均花费 0(n) 时间 的 线性查 找相媲 
美 的查找 方式。 
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6.5.4  习题 

⑴ 编写 函数， 利用 对数组 的线性 查找进 行下列 操作： （a) 向表 Z 中插人 x;  (b) 从表 Z 中删除 x。 

(2)  使用带 哨兵的 数组， 重 复习题 (1) 的 练习。 

(3)  使用 已排序 数组， 重 复习题 (1) 的 练习。 

(4)  假设表 中元素 具有任 意类型 ETYPE， 对 ETYPE 类 型来说 有函数 eg(X,J) 区分 X 和 是否 相等， 还有 
ly(x,y) 函数可 以区分 X 就 ETYPE 类 型元素 的次序 而言是 否先于 >；， 编 写以下 函数： 

(a)  图 6-11 中的 lookup 函数； 

(b)  图 6-12 中的 lookup 函数； 

(c)  图 6-14 中的 binsearch 函数。 

(5)  ** 设图 6-14 中 的二叉 查找算 法最多 进行好 欠探测 （ 也就 是在第 (3) 行求 mid 的值） 时最 长数组 的长度 
(high -low  +  1) 为 尸⑷ 。 例如 ，尸⑴ = 1  , 且 尸 (2)  =  3 。 写岀 P{k) 的递推 关系， 再 求岀自 己 所写的 
递 推关系 的解。 它是 否说明 二叉查 找进行 的探测 次数为 O(logn)  ? 

(6) *对/0冰 和咏 /z 之 差进行 归纳， 证明： 如果 x 在区域 A  [low.  .high] 中， 那么图 6-14 中 的二叉 查找算 
法 会找到 X。 

(7)  假设数 组中可 以岀现 重复的 元素， 使得插 人操作 可以在 0(1) 时间内 完成。 为 这种数 据结构 编写插 
入、 删除 和查找 函数。 

(8)  使用 迭代， 重新 编写二 叉查找 程序。 

(9) ** 为对 n 个元素 的数组 进行二 叉查找 的运行 时间建 立递推 关系， 并 求解。 提示： 为 了简化 问题， 
可以取 T(n) 作为 对具有 n 个或更 少元素 （ 而 不是像 我们常 用的方 法那样 刚好有 n 个元 素） 的 数组进 
行 二叉查 找的运 行时间 上界。 

(10)  在 三分查 找中， 给定从 tow 到 A/g/z 的 区域， 先计算 该区域 中大约 1/3 处 的位置 

first  =  [_(2x/ow  +  high)  /  3j 


并将其 与4«?«^/] 相 比较。 如果 x>4>^]， 就计 算近似 2/3 处 的位置 


second  :  = 「 {low  +  2  x  high)  /  3] 

并将 x 与 Jbecom/] 进 行比较 。 因此 我们将 x 隔 离在这 3 个 区域的 其中一 个里， 每个 区域都 不大于 /ow 
到 如如 形 成区域 的三分 之一。 编写 函数执 行三分 查找。 

(11)** 用三分 查找重 复习题 (5)。 也就 是说， 要找岀 三分查 找时最 多需要 A: 次探测 的最大 数组的 递推关 
系 并为其 求解。 二叉 查找和 三分查 找哪种 所需的 探测次 数多？ 也就 是说， 对于给 定的夂 二叉查 
找和 三分查 找哪种 能处理 更大的 数组？ 

6.6 栈 

栈是 基于表 数据模 型的抽 象数据 类型， 栈中的 所有操 作都是 在表的 一端执 行的， 而 这一端 
就叫 作栈的 栈顶。 术语 “LIFO 表” （后 入先 岀表） 指的就 是栈。 

栈的抽 象模型 与表的 抽象模 型如出 一辙， 也就是 一列某 一类型 的元素 A 、a2、 …、 a„。 将栈与 
一般 表区分 开来的 就是栈 可以接 受的一 些特殊 操作。 我们将 在后面 的内容 中介绍 更加齐 全的操 
作， 不过 现在， 我们 注意到 最精髓 的栈操 作就是 (压 人） ^Upop  ( 弹 出）， 其中 是将 
元素 x 放在 栈顶， pop 则是 从栈中 移除最 顶端的 元素。 如 果将栈 顶写在 右端， 那 么对表 （％%•••, 
a„) 应用 push{x)  , 就 得到表 （aua2, …, a„,x)。 而 弹出表 （aha2, …, ) 得到 的是表 （ a2, …, 

an)。 弹 岀空表 e 是不可 能的， 而且会 岀错。 
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♦ 示例 6.9 

很多编 译器首 先会把 岀现在 程序中 的中缀 表达式 转换成 等价的 后缀表 达式。 例如， 表达式 
(3  +  4)x2 的 后缀形 式就是 34  +  2X。 栈可 以用来 为后缀 表达式 求值。 由空栈 开始， 我们从 左至右 
扫 描需要 求值的 后缀表 达式。 每当遇 到一个 参数， 就将 其压入 栈中。 而在遇 到运算 符时， 就弹 
出栈 两次， 并 记下弹 出的操 作数。 然后对 弹出的 两个值 （其中 第二个 值是运 算符左 边的操 作数） 
应 用该运 算符， 然 后将结 果压入 该栈。 图 6-15 展 示了处 理后缀 表达式 34  +  2X 每一 步操作 之后栈 
的 情况。 在 完成处 理后， 求值 的结果 14 留在该 栈中。 


处理 的符号 

栈 

操作 

初始化 

6 

3 

3 

push  3 

4 

3,4 

push  4 

+ 

6 

pop4；  pop3 

计算 7=3+4 

7 

push  7 

2 

7,2 

push  2 

X 

e 

pop2、 popl 

计算 14=7x2 

14 

push  14 

图 6-15 用 栈求后 缀表达 式的值 


6.6.1 对栈 的操作 

之前 讨论过 的两种 抽象数 据类型 —— 词典和 优先级 队列， 都拥有 一组明 确与之 关联的 操作。 
栈其实 是一些 相似的 ADT， 它们有 着相同 的底层 模型， 但各 自有着 所允许 操作集 不同的 变种。 
在本 节中， 我们要 讨论栈 的通用 操作， 并展 示两种 可用来 实现栈 的数据 结构， 一 种是基 于链表 
的， 另 一种是 基于数 组的。 

正如 之前提 到的， 在任 意一组 栈操作 中都可 以看到 和 pop。 为栈 ADT 选择 的操作 还有个 
共性： 它们都 可以在 0 ⑴ 时间内 实现， 而与栈 中的元 素数量 无关。 大 家可以 自行验 证一下 ，对 
于我 们提到 的两 种数据 结构， 所 有操作 都只需 要常数 时间。 

除了 和; wp 外， 通常 还需要 dear 操作 将栈初 始化为 空栈。 在示例 6.9 中， 默认假 设栈一 
开始 为空， 而 没有解 释它为 什么是 这样。 还 有一种 操作， 就是确 定栈当 前是否 为空的 测试。 

最后 要考虑 的操作 是确定 栈是否 “ 已满” 的 测试。 现在 在栈的 抽象模 型中， 没有关 于满栈 
的 概念， 因 为原则 上讲， 栈是 可以随 意变长 的表。 不过， 在栈 的任何 一种实 现中， 都会 有某个 
无法 超越的 长度。 最 常见的 例子就 是在用 数组表 示表或 栈时。 正如在 6.5 节中看 到的， 必 须假设 
表 的长度 不会超 过常量 MAX, 否则 /mert 函数 的实现 就没法 正常工 作了。 

我们 在自己 的 栈的实 现中将 要使用 的这一 操作的 正式定 义如下 。设 是 ETYPE 类型的 栈而且 
X 是 ETYPE 类型的 元素。 

(1)  clear(S)  0 将栈货 青空。 

⑺ 如果 S 为空， 返回 TRUE, 否 则返回 FALSE。 
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isFull(S) 。 如果 S 已满， 返回 TRUE, 否 则返回 FALSE。 

(4)  pop{S,x)o 如果 ^ 为空， 返回 FALSE; 否则， 将 X 置为 栈对戈 顶元素 的值， 并将该 元素从 
栈 S 中删 除， 然 后返回 TRUE。 

(5)  push(X,S) 。 如果 ^ 已满， 返回 FALSE; 否则， 将元素 X 添加 到劝勺 栈顶， 并返回 TRUE。 
的一 个常见 变种 会假设 ^ 非空。 它 只接受 M 乍为 参数， 并返回 被弹岀 的元素 X。 雨 X)；? 的另 

一个版 本则根 本不返 回值， 它 只是将 栈顶处 的元素 删除。 同样， 我 们可以 在编写 /n/M 时假设 S 
“未 满”。 在 这种情 况下， 不 返回任 何值。 

6.6.2 栈的数 组实现 

用于 表的这 种实现 也能用 于栈。 我们将 首先讨 论基于 数组的 实现， 接着 讨论链 表表示 。在 
两种情 况下， 我 们都将 元素类 型定为 int。 更 一般化 的工作 还是留 作本节 习题。 


图 6-16 表 7K 找 的数组 


基于 数组的 整数栈 的声明 如下。 

typedef  struct  { 
int  A [MAX] ; 
int  top; 

}  STACK; 

在 基于数 组的实 现中， 栈既 可以向 上增长 （从 较低 区域向 较高区 域）， 也 可以向 下增长 （从 较高 
区域向 较低区 域)。 在这里 我们选 择让栈 向上增 长®， 也就 是说， 栈 中最老 的元素 在位置 0, 第 
二老 的元素 ^ 在位置 1 ， 而最 新插人 的元素 ag 在位置 n-\ o 

数 组结构 体中的 top 字段 指示了 栈顶的 位置。 因此， 在图 6-16 中， top 的值为 〃-1。 空栈是 
通过 top=-l 来表 示的。 在 这种情 况下， 数组 A 的内 容是 无关紧 要的， 栈中没 有任何 元素。 

6.6.1 节中 定义的 5 种栈 操作对 应的程 序如图 6-17 所示。 我 们通过 引用传 递栈， 来避免 复制作 
为函 数 参数的 大 数组。 


①因此 “ 栈顶” 在图 中是出 现在底 部的， 这是种 不凑巧 但相当 标准的 约定。 
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void  clear (STACK  *pS) 

{  " 
pS->top  =  -1; 

> 

BOOLEAN  isEmpty (STACK  *pS) 

{ 

return  (pS->top  <  0) ; 

} 

BOOLEAN  isFull (STACK  *pS) 

{ 

return  (pS->top  >=  MAX-1) ; 

> 

BOOLEAN  pop (STACK  *pS，  int  *px) 

{ 

if  (isEmpty (pS) ) 
return  FALSE; 
else  { 

(*px)  =  pS->A [ (pS->t op) -- ] ; 
return  TRUE; 


BOOLEAN  push (int  x,  STACK  *pS) 

{ 

if  (isFull(pS) ) 
return  FALSE; 
else  { 

pS_>A[++(pS_>top)]=x; 
return  TRUE; 


图 6-17 用来 实现数 组上的 栈操作 的函数 


6.6.3 栈的链 表实现 

与表 一样， 可 以用链 表数据 结构表 示栈。 不过， 如果栈 顶是表 的前端 就会很 方便。 这样的 
话， 可 以在表 的表头 压入和 弹岀， 都 只用花 0(1) 的时 间。 如果 必须找 到表的 端点再 压入和 弹岀， 
对长度 为《 的栈 执行这 些操作 就要花 (900 的 时间。 而这样 一来， 栈5=  (  …, A  ) 必 须用链 

表 “ 倒着” 表亦 为: 


L - ►  a„ - ►  «„-! 


在 定义表 单元时 使用过 的类型 定义宏 也可以 用于栈 。宏 

Def Cell (int,  CELL,  STACK) : 

定 义了整 数栈， 并 扩展为 

typdef  struct  CELL  *STACK; 
struct  CELL  { 
int  element ; 

STACK  next ; 

>； 

对这 种表示 而言， 5 种 操作可 以用图 6-18 中 的函数 实现。 我 们假设 malloc 从 不会用 尽空间 ，这 
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意 味着秘 操 作总是 会返回 FALSE ， 而且 操作 从不会 失败。 


void  clear (STACK  *pS) 

{ 

OpS)  =  NULL; 

> 

BOOLEAN  isEmpty (STACK  *pS) 

{ 

return  (OpS)  ==  NULL) ; 

} 

BOOLEAN  isFull (STACK  *pS) 

{ 

return  FALSE; 

} 

BOOLEAN  pop (STACK  *pS ,  int  *px) 

{ 

if  ((*pS)  ==  NULL) 
return  FALSE; 
else  { 

(*px)  =  (*pS)->element ; 
OpS)  =  (*pS)->next ; 
return  TRUE; 


BOOLEAN  push (int  x,  STACK  *pS) 

{ 

STACK  newCell; 

newCell  =  (STACK)  malloc(sizeof (struct  CELL)); 
newCell->element  =  x; 
newCell->next  =  (*pS) ; 

(*pS)  =  newCell; 
return  TRUE; 


图 6-18 链表实 现的栈 所使用 的函数 
对 用链表 实现的 栈执行 和;? op 的效 果如图 6- 1 9 所示。 

L - ►  a - ►  b - ►  c 


⑻表 Z 


L - ►  x - ►  a - ►  b - ►  c 


⑼执行 / 皿 //(x， Z) 之后 


b 

(c) 对⑻中 的表执 行； ， x) 之后 
图 6-19 对用 链表实 现的栈 执行压 人和弹 岀操作 
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6.6.4  习题 

(1)  由空栈 开始， 在 执行操 作序列 ⑷、 push{b) 、 pop、 pushic) 、 push{d) 、 pop 、 push(e) 、 pop、 pop 
之后， 栈 中还剩 什么。 

(2)  只使 用本节 讨论的 5 种栈 操作操 作栈， 编写 C 语言 程序， 按照图 6-9 所示的 算法， 为使 用整数 操作数 
及 4 种常 用算术 运算符 的后缀 表达式 求值。 恰当地 定义数 据类型 STACK， 并 先后在 程序中 用上图 
6-17 和图 6-18 中的 函数， 以此证 实大家 编写的 程序既 可以使 用数组 实现， 也 可以使 用链表 实现。 

(3)  * 怎 样用栈 为前缀 表达式 求值？ 

(4)  计算图 6-17 和图 6-18 中 各函数 的运行 时间。 它们是 否全为 0(1)  ? 

(5)  栈 ADT 有时 会使用 top 操作， 会返回 栈*5  (— 定要假 设该栈 非空） 的栈顶 元素。 编写 可与本 
节中定 义栈的 

(a)  数组数 据结构 

(b)  链表数 据结构 

一起 使用的 to;? 函数。 这两个 to;? 的实 现花的 时间是 否都是 0(1)  ? 

(6)  模 拟栈， 计算以 下后缀 表达式 的值： 

(a)  ab  +  cd x-\-ex 

(b)  abode  +  +  +  + 

(c)  ab  +  c-\-d-\-e-\- 

(7) * 假设 从空栈 开始， 执行一 些压人 和弹岀 操作。 如果在 这些操 作之后 的栈为 栈顶 
在 右侧， 证明： 对 /  =  1 , 2, …， n  - 1 ,  a, 是在 七+1 压 人之前 被压人 栈的。 

6.7 使用栈 实现函 数调用 

栈的一 项重要 应用常 不为人 所见： 栈可 以用来 为程序 中多个 函数的 变量分 配计算 机内存 
空间。 我们要 讨论的 是用于 c 语言的 机制， 不过相 似的机 制也几 乎用在 其他每 种程序 设计语 
言中。 

要理解 问题是 什么， 可考虑 2.7 节中 简单的 递归阶 乘函数 fact, 该 函数图 6-20 所示。 fact 
函 数有一 个参数 n 以及 一个返 回值。 随着 fact 递归 地调用 自身， 不 同的调 用将会 同时处 于活动 
状态。 这些 调用有 着值各 不相同 的参数 n， 而且会 产生不 同的返 回值。 那这 些有着 相同名 称的不 
同对 象要存 放在哪 里呢？ 


int 

{ 

fact (int  n) 

(1) 

if  (n  <=  1) 

(2) 

return  1;  /*  依据  */ 
else 

(3) 

> 

return  n*f act (n-1)  ;  /*  归纳  */ 

图 6-20 计算 n! 的递 归函数 

要回 答这一 问题， 必须 先对与 程序设 计语言 相关联 的运行 时组织 （run-time  organization  ) 
有所 了解。 运行 时组织 是一种 规划， 它将计 算机内 存细分 为不同 区域， 以 存放程 序所使 用的不 
同数 据项。 当程序 运行的 时候， 函 数的每 次执行 称作一 次活动 （activation)。 与每 次活动 相关联 
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的 数据对 象都存 储在计 算机内 存中称 为该活 动的活 动记录 （ activation  record  ) 的区 块里。 这些 
数据对 象包括 参数、 返 回值、 返回 地址和 该函数 的局部 变量。 

图 6-21 展示 了有代 表性的 运行时 内存细 分情况 。第 一个区 域含有 执行中 的程序 的对象 代码。 
而接下 来的区 域包含 了用于 该程序 的静态 数据， 比如 某些常 量以及 程序使 用的外 部变量 的值。 
第三 个区域 是运行 时找， 它是 向着内 存中的 高位地 址向下 增长的 。 在 最局编 号内存 区域的 是堆， 
该区域 是为用 malloc 动态 分配的 对象预 留的。 ® 


图 6-21 典 型的运 行时内 存组织 

运 行时栈 中存放 着当前 处于活 跃状态 的所有 活动的 记录。 栈是种 合适的 结构， 因为 在调用 
函 数时， 可以把 活动记 录压人 栈中。 任何 时候， 当前 正在执 行的活 动為的 记录会 在栈顶 位置。 
而 正好位 于栈顶 之下的 是调用 為的為 的活动 记录。 在為 的活动 记录之 下的， 是调 用為的 活动的 
记录， 以此 类推。 当 函数返 回时， 就弹 出栈顶 的活动 记录， 露 出调用 该活动 的函数 的活动 记录。 
这正是 要做的 事情， 因为当 函数返 回时， 控制权 会传递 给调用 函数。 

♦ 示例 6.10 

考虑一 下如图 6-22 所示 的程序 骨架。 该程序 是非递 归的， 而且 任一函 数中一 直只有 一个活 
动。 当 主函数 开始执 行时， 它包含 着变量 X、 ：/和2 对应 空间 的活动 记录会 被压入 栈中。 当函数 P 
在 标记为 Here 的位 置被调 用时， 它的活 动记录 （含 有变量 pi 和 p2 对应的 空间） 会 被压入 栈中。 
@ 当 P 调用 Q 时， Q 的活 动记录 被压入 栈中。 至此， 栈的情 况如图 6-23 所示。 

当 Q 执行完 毕时， 它的 活动记 录就会 从栈中 弹出。 此时， P 也完 成了， 所以它 的活动 记录也 
会被 弹岀。 最后， main 也完成 执行， 并将它 的活动 记录弹 岀栈。 现 在栈为 空栈， 而程序 也执行 
完 毕了。 


① 不 要把这 里用到 的术语 “堆” 与 5.9 节中 讨论的 堆数据 结构弄 混了。 

② 请 注意， P 的 活动记 录有两 个数据 对象， 因 此它的 “ 类型” 与主程 序活动 记录的 “ 类型” 是不 同的。 不过， 我们 
可以 将某程 序所有 记录类 型的形 式视作 某一记 录类型 的不同 变种， 因 此维护 了栈的 元素具 有相同 类型的 观点。 
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void  P() ; 
void  Q() ; 

main()  { 

int  X，  y,  z; 

P()  ；  /*  这里  */ 

} 

void  P() ; 

{ 

int  pi ,  p2 ; 

QO; 

> 

void  Q() 

{ 

int  ql ,  q2 ,  q3; 


图 6-23 当函数 Q 正在 执行 时的运 行时栈 


♦ 示例 6.1 1 

考虑图 6-20 所 示的递 归函数 fact。 同一时 间可能 有很多 fact 的 活动处 于活跃 状态， 不过 
每一 个活动 都有着 相同形 式的活 动记录 ，即 


n 

fact 


其中首 先装入 的是对 应参数 n 的单 词， 接着是 对应返 回值的 单词， 这里 表示为 fact。 返 回值直 
到活动 的最后 一 ^ 步， 在返 回之前 才会被 装入。 

假 设调用 fact  (4) ， 这样就 创建了 具有如 下形式 的活动 记录。 


n 

4 

fact 

- 
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随着 fact(4) 调用 fact(3〉 ， 接着要 将表示 该活动 的活动 记录压 人运行 时栈， 现在 该栈就 
成了： 


n 

4 

fact 

- 

n 

3 

fact 

- 

请 注意， 这 里有两 个名为 n 和两 个名为 fact 的 位置。 不过这 样并不 冲突， 因为它 们属于 不同的 
活动， 而 且一次 只有一 个活动 记录可 以位于 栈顶： 属于 当前正 在执行 的活动 的活动 记录。 

fact  (3  ) 接着 会调用 fact  (2) ， 而 fact  ( 2  ) 又 会调用 f act  ( 1 ) 。 至此， 运行时 栈如图 6-24 
所示。 fact  ( 1 ) 现在 不再进 行递归 调用， 而 是赋值 汾以=1。 因此 ，值 1 被 放入顶 部活动 记录为 fact 
预留的 槽中。 而其他 标记为 fact 的 槽未受 影响， 如图 6-25 所示。 


n 

4 

fact 

- 

n 

3 

fact 

- 

n 

2 

fact 

- 

n 

1 

fact 

- 

图 6-24  fact 执行期 间的活 动记录 


n 

4 

fact 

- 

n 

3 

fact 

- 

n 

2 

fact 

- 

n 

1 

fact 

1 

图 6-25  fact  (1) 计算其 值之后 

接着， fact  (1) 返回， 将对应 fact  (2) 的 活动记 录暴露 在外， 并在 fact  ( 1 ) 被调 用的位 
置将 控制权 返回给 fact  (2) 。 来自 fact  (1) 的 返回值 1 会乘上 fact  (2  ) 对应活 动记录 中《 的值， 
而该乘 积就被 放置到 该活动 记录里 fact 对应的 槽中， 正如图 6-20 中第 (3) 行所需 要的。 得 到的栈 
如图 6-26 所示。 
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#define  MAX  4 
int  A [MAX] ; 
int  sum ( int  i) ; 

main() 

{ 

int  i ; 

for  (i  =  0;  i  <  MAX ;  i++) 
scanf  (,,0/0d."  ,  &A[i] ) ; 
printf  ("%ci\n" ， sum(O) ) ; 

> 

int  sum ( int  i) 

{ 

if  (i  >=  MAX) 
return  0; 
else 

return  A [i]  +  sum(i+l) : 


n 

4 

fact 

- 

n 

3 

fact 

- 

n 

2 

fact 

2 

图 6-26  fact  (2  ) 计算其 值之后 

同样， fact  (2 〉 接着将 控制权 返回给 fact  (3  ) ， 而 且对应 fact  (2  ) 的活动 记录会 被弹出 
栈。 而 返回值 2 会乘上 fact  (3  ) 对应的 n， 得岀 返回值 6。 然后， fact  (3) 返回， 并将其 返回值 
乘以 fact  (4) 中的 n， 得到 返回值 24。 运行时 栈现在 成了： 


n 

4 

fact 

24 

至此， fact  (4) 返回 到某假 设的调 用函数 ，其活 动记录 ( 未表 示出来 ) 在栈中 正位于 fact  (4) 
之下。 不过， 它 会接收 返回值 24 作为 fact  (4〉 的值， 并继续 自己的 执行。 

习题 

(1) 考虑 一下图 6-27 中的 C 语言 程序。 main 函 数的活 动记录 含有对 应整数 i 的槽。 而 sum 的活动 记录中 
的重 要数据 包括： 

⑻ 参数 i; 

(b)  返 回值； 

(c)  未命名 的临时 区域， 我 们称为 temp, 用 来存储 sum (i  +  1) 的值。 sum ( i  +  1 ) 是 在第⑹ 行中计 
算的， 而且之 后会与 相加以 形成返 回值。 

假设 4/] 的值为 10/， 给 岀紧邻 每次对 sum 的调 用之前 和之后 活动记 录栈的 情况。 也 就是说 ，给 
岀紧接 在压人 sum 的活 动记录 之后， 且刚要 从栈中 弹岀一 个活动 记录之 前栈的 情况。 大 家无需 
每 次都给 岀底层 （对应 main 函 数的） 活动 记录的 内容。 


一  2  3 


4  5  6 


} 


图 6-27 习题 (1) 的程序 
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(2)  *图6-28 所示的 delete 函 数会删 除链表 中第一 次岀现 的整数 X， 链表由 定义如 下的普 通单元 组成： 

DefCellCint,  CELL,  LIST) ; 

delete 的活 动记录 由参数 x 和 PL 组成。 不过， 因为 PL 是指 向表的 指针， 所 以活动 记录中 第二个 
参 数的值 不是指 向表中 第一个 单元的 指针， 而是 另一个 指针， 它 指向的 是指向 第一个 单元的 指针。 
通常， 活 动记录 会存放 指向某 个单元 next 字段的 指针。 在 从其他 某个函 数调用 delete  (3,  &L), 
而且 Z 是指向 链表 （1,  2,  3,  4) 第 一个单 元的指 针时， 给 岀栈的 序列。 


void  delete (int 

X 

c,  LIST  *pL) 

\ 

if  ((*pL)  != 

NULL) 

if  (x  == 

(*pL) -〉 element) 

(*pL) 

= (*pL)->next ; 

else 

delete (x，  & ( (*pL) ->next) ) ; 

> 

图 6-28 习题 (2) 的程序 


6.8 队列 

另一种 基于表 数据模 型的抽 象数据 类型是 队列。 这是 一种形 式受限 的表， 它 的元素 只能从 
后端 插人， 并 从前端 删除。 术语 “FIFO 表” （先 人先 出表） 就是指 队列。 

对队 列的直 观想法 就是出 纳员窗 口前的 队伍。 人 们从尾 部进人 队伍， 并在到 达队首 时接受 
服务。 与 栈不同 的是， 队列 是很公 平的， 人们是 按照进 入队伍 的顺序 接受服 务的。 因此， 等待 
得 最久的 那个人 就是下 一个接 受服务 的人。 

6.8.1 对队列 的操作 

队列 使用的 抽象模 型与表 （或 栈） 使用的 抽象模 型是相 同的， 不过对 队列执 行的操 作却是 
特 殊的。 队列具 有两种 特有的 操作， 入队 （enqueue) 和出队 （dequeue)。 会将 x 添加 
到队列 后端， 而办 ^⑼^则 会从 队列前 端删除 元素。 就像栈 那样， 我 们还会 需要将 其他一 些实用 
操作应 用到队 列上。 

设 0 是 元素类 型皆为 ETYPE 的 队列， 并设 X 是 ETYPE 类型的 元素。 我们 要考虑 以下对 队列的 
操作。 

(1)  clear(Q)0 将队列 0 置空。 

(2) <ie—ewe(Q， x)。 如果 0 为空， 返回 FALSE; 否则， 将 A： 置为 g 前 端元素 的值， 并将 该元素 
从 2 中 删除， 然 后返回 TRUE。 

(3) enqueue(x,  Q)0 如果 0 已满， 返回 FALSE; 否则， 将元素 x 添加到 0 的 后端， 并返回 TRUE。 

(4)  isEmpty(Q)0 若 0 为空 则返回 TRUE， 否 则返回 FALSE。 

(5)  isFull(Q)0 若 0 已满 则返回 TRUE, 否 则返回 FALSE。 

就像栈 那样， 我们 可以给 岀更具 “信 任度” 的 和 i/egwewe， 其中 不会 检查队 
列是否 已满， 而 degwewe 不会 检查队 列是否 为空。 e— wewe 不再返 回值， 而 de—ewe 贝 U 只接受 g 作 
为 参数， 并返 回被请 出队列 的值。 
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6.8.2 队 列的链 表实现 

用于 队列的 一种实 用数据 结构是 基于链 表的。 首 先是由 宏给出 的单 元定义 

DefCellCint,  CELL,  LIST) ; 

一 如本章 前面的 内容， 假 设队列 中的元 素都是 整数， 并 请读者 自己将 我们的 函数一 般化为 
处理任 意元素 类型。 

队 列的元 素将存 储到链 表的单 元中。 队列本 身是具 有两个 指针的 结构， 一个指 向前端 单元， 
也就是 链表的 第一个 单元； 另 一个指 向后端 单元， 也 就是链 表的最 后一个 单元。 这 就是说 ，有 
如 下定义 

typedef  struct  { 

LIST  front ,  rear; 

}  QUEUE; 

如 果队列 为空， front 就将是 NULL, 而 rear 的值就 无关紧 要了。 


更多的 抽象数 据类型 

可以将 栈和队 列加到 5.9 节中引 入的 抽象数 据类型 表中。 我们在 6.6 节 中 介绍了 栈使 用的两 
种数据 结构， 并在 6.8 节 中 介绍了 队列 使用 的一 种数据 结构。 而 6.8 节的习 题 (3) 则 提到了 实现数 
组的另 一 种数据 结构， “ 循环数 组”。 


抽象数 据类型 

栈 

队  列 

抽 象实现 

表 

表 

数 据结构 

1) 链表 

1) 链表 

2) 数组 

2) 循 环数组 

图 6-29 给出 了实现 本节所 提队列 操作的 程序。 请 注意， 在 使用链 表时， 就没有 “满” 队列 
的概 念了， 这样 一来^ 总 会返回 FALSE。 不过， 如 果使用 某种基 于数组 的队列 实现， 就可能 
会有满 队列。 

6.8.3 习题 

(1)  给岀从 空队列 开始， 在 执行操 作序列 engwewe(a)、 enqueue{b) 、 dequeue 、 enqueue(c) 、 enqueue(d) 、 
dequeue 、 enqueue(e) 、 dequeue 、 (iegwewe 之后 剩下 的队 列。 

(2)  证明图 6-29 中的 各函数 都能在 0(1) 时间内 执行， 而不需 要考虑 队列的 长度。 

(3)  *可 以用数 组表示 队列， 只要队 列不会 增长得 太长。 为 了让操 作只花 0(1) 的 时间， 必须将 数组视 
为循 环的。 也就 是说， 数组 A[0.  .n-1] 要 被视为 A[l] 在 A[0] 之后、 A[2] 在 A[l] 之后， 以此类 
推， 直到 A  [n-1] 在 A  [n- 2] 之后， 不 过还有 A  [  0  ] 在 A  [n-1  ] 之后 ^ 队 列可以 用表示 队列前 端元素 
和后端 元素位 置的一 对整数 front 和 rear 表示。 空 队列可 以表示 为在循 环的情 况下， /r 咖 的位置 
紧邻 rear 之后， 例如声 =  23 且 rear  =  22， 或是斤 =  0 且 rear  =  «  - 1 。 请 注意， 因 此该队 列不是 
有 n 个元 素， 否则该 条件也 可以由 紧跟和 ^ 之后来 表示。 因此， 当该 队列有 n-1 个 元素， 而不 
是有 《 个元 素时， 它 就已经 满了。 假 设使用 循环数 组数据 结构， 为这些 队列操 作编写 函数， 不要忘 
了检 查满队 列和空 队列。 

(4) * 证明： 如果 (％，％ ，…， flH) 是以 〜为 前端的 队歹！ J, 那么对 /  =  1 , 2, - 1 而言， a,. 是在 ％+1 之前人 
队的。 
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void  clear (QUEUE  *pQ) 

{ 

pQ->front  =  NULL; 

> 

BOOLEAN  isEmpty( QUEUE  *pQ) 

return  (pQ->f ront  ==  NULL) ; 

> 

BOOLEAN  isFull (QUEUE  *pQ) 
return  FALSE; 

> 

BOOLEAN  dequeue ( QUEUE  *pQ ,  int  *px) 

if  (isEmpty (pQ) ) 
return  FALSE; 
else  { 

(*px)  =  pQ->f ront->element ; 
pQ->front  =  pQ->f ront->next ; 
return  TRUE; 


BOOLEAN  enqueue (int  x,  QUEUE  *pQ) 

{  ~ 
if  (isEmpty (pQ) )  { 

pQ->front  =  (LIST)  malloc (sizeof (struct  CELL)); 
pQ->rear  =  pQ->f ront ; 

> 

else  { 

pQ->rear - >next  =  (LIST)  malloc (sizeof (struct  CELL)); 
pQ->rear  =  pQ->rear->next ; 

> 

pQ->rear->element  =  x; 
pQ->rear->next  =  NULL; 
return  TRUE; 

> 


图 6-29 实现 链表队 列操作 的例程 


6.9 最 长公共 子序列 

本 节专门 探讨一 个与 表有关 的有趣 问题。 假 设有两 个表， 而我 们想知 道这两 者之间 有何差 
异。 该问题 会以很 多不同 的形式 出现， 也许最 常见的 就是两 个表分 别表示 某文本 文件的 两个版 
本， 并 希望确 定两个 版本有 哪几行 相同的 情况。 为简便 起见， 纵贯 本节我 们都将 假设这 些表是 
字 符串。 

考虑这 一问题 的一种 实用方 式就是 将两个 文件当 作符号 序列， x  =  yam 和： f  =  &•••&,， 其 
中 表 示第一 个文件 中的第 / 行， 而勿 表示第 二个文 件的箄 /行。 因此， 像 A 这样的 抽象符 号其实 
也 许是个 “大” 对象， 有可能 是一整 句话。 
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UNIX 命令 diff 就可以 比较两 个文本 文件的 区别。 文件 x 可能是 某程序 当前的 版本， 文件: f 
则 可能是 该程序 在经过 某次细 小修改 之前的 版本。 可 以使用 diff 提醒自 己在将 y 变为 X 时 进行的 
修改。 对文本 文件的 常见修 改有： 

(1)  插入 一行； 

(2)  删除 一行。 

而文本 行的修 改可以 视为删 除一 行之后 紧接 着插人 一行。 

通常， 当一个 文本文 件转化 为另一 个时， 如 果对两 个文本 文件间 发生的 少量改 变加以 检验， 
很 容易发 现哪些 文本行 是与哪 些行对 应的， 且 很容易 看出哪 些文本 行被删 除了以 及哪些 文本行 
是新插 入的。 diff 命令 作岀了 这样的 假设， 用 两个表 表示两 个文本 文件， 表中元 素是文 本文件 
中的文 本行， 于是可 以通过 首先找 出两个 表的最 大公共 子序列 （ Longest  Common  Subsequence ， 
LCS) 来 确定都 有哪些 改变。 LCS 表示 那些没 有修改 过的文 本行。 

回想 一下， 子 序列是 在保留 剩余元 素次序 的前提 下从表 中删除 0 个 或多个 元素得 到的。 两个 
表 的公共 子序列 就是同 为两者 子序列 的表， 而 两个表 的最长 公共子 序列就 是两个 表公共 子序列 
中 最长的 那个。 

♦ 示例 6.12 

在下 文的内 容中， 我们 可以将 a、 b 或 c 这样 的字 符视为 表示文 本文件 中的文 本行， 或者如 
果愿意 的话， 视 作其他 类型的 元素。 举例 来说， baba 及 cbba 都是 abcabba 和 cbabac 的 最长公 
共子 序列。 可以 看到， baba 是 abcabba 的子 序列， 因为从 abcabba 中选 取位置 2、 4、 5 和 7 就 
能形成 baba。 字符串 baba 也是 cbabac 的子 序列， 因为 可以选 择位置 2、 3、 4 和 5。 同样， cbba 
是由 abcabba 的位置 3、 5、 6 和 7 形 成的， 也是由 cbabac 的位置 1、 2、 4 和 5 形 成的。 因此 cbba 
也是 这些字 符串的 公共子 序列。 我 们必须 相信， 这就 是最长 公共子 序列， 也就 是说， 没 有长度 
为 5 或更 长的公 共子序 列了。 这一事 实可由 接下来 要描述 的算法 得出。 

6.9.1 对 LCS 计算 的递归 

我们 提供了 两个表 LCS 长度 的递归 定义。 该 定义使 LCS 长度 的计算 变得很 容易， 而且 ，通 
过检验 它构建 的表， 可以发 现一个 可能的 LCS， 而不 只是其 长度。 由该 LCS， 可 以推断 出文本 
文 件发生 了什么 变化， 本质 上讲， 不属于 LCS 的部 分都是 变化。 

要 找出表 x 和表: f 某个 LCS 的 长度， 就需要 弄清所 有前缀 （一 个来自 X， 另一 个来自 J；) 对 LCS 
的 长度。 回想 一下， 前缀 是以表 首字母 开头的 子表， 也就 是说， cbabac 的前 缀就是 e、 c、 
cb、 cba, 等等。 假设 x  =  (a1,a2 ，…, 而且 产队匕 ，… ,6„) 。 对每个 / 和每个 /, 其中 / 在 0 到 m 
之间， 而/在 0 到 《 之间， 都可以 要求来 自 x 的前缀 (％ ，…, flj 和来 自 j 的前缀 汍, 的 LCS。 

如果 / 或/ 之中有 一个为 0, 那 么其中 一个前 缀就是 e， 这样 两个前 缀唯一 可能的 公共子 序列就 
是 e。 因此， 当 f 或/ 之中有 一个为 0 时， LCS 的长 度就是 0。 这一直 观结果 可以转 化为在 LCS 计算 
方 式的非 正式讨 论之后 的归纳 中依据 和规则 C1) 的正式 形式。 

现在考 虑一下 / 和/ 都大于 0 的 情况。 最好将 LCS 视为 两个字 符串的 某些位 置间的 匹配。 也就 
是说， 对 LCS 的每 个元素 而言， 都 可以将 该元素 在两个 字符串 中各自 所在的 位置匹 配起来 。匹 
配过的 位置必 须具有 相同的 符号， 而 且匹配 过的位 置之间 的文 本行一 定不能 交叉。 


260  第 6 章 表数 据模型 


♦ 示例 6.13 

图 6-30a 展示了 字符串 abcabba 和 cbabac 两种 可能匹 配中对 应公共 子序列 baba 的那种 ，图 
6-30b 则展示 了对应 cbba 的 匹配。 


a 

c 


b  a  b  a  c 


(a) 对应 baba 


abcabba 

//// 

cbabac 


(b) 对应 cbba 


图 6-30 表示为 位置间 匹配的 LCS 

因此， 我 们来考 虑前缀 (％ ，…， a,.) 和汍 ，… ，~) 之间的 匹配。 存在如 下两种 情况， 具 体取决 
于 两个表 的最后 一个符 号是否 相等。 

⑻如果 义 矣匕 . ， 那么匹 配中就 不可能 同时含 有兩和 因此 (a〆..,％) 和汍 ，…， ~) 的 LCS — 
定 是下列 两者之 一 ‘。 

⑴ （a! ，…， aM) 和汍 ，…， ~) 的 LCS; 

(ii)  (% ，…， a;) 和汍 ，…， 6 尸） 的 LCS。 

如果已 经得出 了上 述两对 前缀的 LCS 的 长度， 就可以 取其中 的较大 值作为 (％ ，…， a,.) 和 
(bv---,bj) 的 LCS 的 长度。 这 种情况 将成为 接下来 的归纳 中正式 的规则 (2)。 

(b) 如果 a,=6y， 就可以 匹配印 和 而且 该匹配 将不会 妨碍其 他任何 可能的 匹配。 因此， 
(flj ,•••,  a 和 的， …， ~) 的 LCS 的长度 ，要比 (a!， …， fln) 和 的， …， Ayy) 的 LCS 的 长度大 1 。 
这 种情形 将成为 接下来 的归纳 中正式 的规则 C3)。 

这些 直观结 果让我 们给出 了 L(i,j) —— (fll ，…， fl/) 和 {bv-,bj) 的 LCS 的长度 —— 的递归 
定义。 其中利 用了对 印 的和 的完全 归纳。 

依据。 如果 /+y  =  0, 那么详 q/ 都为 0, 所以 LCS 是 e。 因此 L(0,0)  =  0。 

归纳。 考虑 / 和/， 并假 设已经 为满足 的任 意尽和 M 十算岀 /0。 有如下 3 种情况 
需要考 虑。 

(1)  如果域 y 中有 一个为 0, 那么 邱, ))  =  0。 

(2)  如果  />0 且 7>0  , 而且  a;. 关匕 . ， 那么 =  max  (Z(z_, y  —  1),  1(/  —  1, 力） 。 

(3)  如果  />0 且 7>0  , 而且  a,.  =  ~ ， 那么  1(/, 力 = 1  +  - 1, 7  - 1) 。 

6.9.2 用于 LCS 的 动态规 划算法 

我们 最终想 要的是 即表 X 和表 y 的 LCS 的 长度。 如 果根据 之前的 归纳编 写递归 程序， 
它 所花的 时间是 爪和《 的较 小者的 指数。 这 一简单 的递归 算法对 n  =  m  =  m 这样的 情况而 言要花 
上太多 太多的 时间。 这一递 归表现 如此糟 糕的原 因有些 复杂。 首先， 假设表 x 和表: f 中的 字符间 
完 全没有 匹配， 并调用 Z(3,3)。 这会 带来对 Z(2,3) 和 Z(3,2) 的 调用, 而这两 次调用 又都会 带来对  1(2, 2) 
的 调用。 因此 就要将 1(2, 2) 的工 作完成 两遍。 随着 Z 的参数 变小， Z(4/) 的调 用次数 会迅速 增加。 
如果将 调用追 踪继续 下去， 就会 发现， Z(l,l) 被 调用了 6 次， 1(0,1) 和 Z(1,0) 各被 调用了 10 次 ，而 
1(0,0) 被 调用了 20 次。 
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如 果构建 二维表 或二维 数组来 存储对 应不同 / 和/的 1(/,/)， 就 可以有 更佳的 表现。 如 果按照 
归纳 的次序 计算这 些值， 也就是 说先从 最小的 (/+/) 的 值开始 计算， 那么 在计算 时 所需的 Z 
的值 总是在 表中。 其实， 逐 行计算 z 要更 简单， 也 就是对 /=0,  1， 2 等计算 Z， 而 在一行 之中， 
要按 列计算 八 也就 是对/ =  0,  1， 2 等计算 Z。 在计算 时， 还是 一定能 够在表 中找到 所需的 
值， 而且不 需要进 行递归 调用。 这样 一来， 计 算表中 每一项 都只需 要花费 0(1) 的 时间， 而要构 
建二 维表表 示长度 分别为 历和《 的表的 LCS ， 需 要花的 时间是  。 

图 6-31 展示 了填充 该表的 C 语言 代码， 是按 行处理 而非按 /+J 的和处 理的。 假设表 x 存储 在数 
组 v4[l..w] 中， 而表 y 存储 在列 1..«]中。 请 注意， 数组中 标号为 0 的元 素未被 使用， 这样做 简化了 
图 6-31 中的表 示法。 这里将 证明该 程序处 理长度 分别为 所和《 的表 的运行 时间为 的 工作留 
作本节 习题。 ® 


for 

(j  =  o； 

j  <=  n;  j++) 

L[0]  [j] 

=  o； 

for 

(i  =  1； 

i  <=  m;  i++)  { 

L[i]  [0] 

=  0; 

for  (j 

= 1;  j  <=  n;  j++) 

if 

(a[i]  !=  b[j]) 
if  (L[i-l][j]  >=  L[i]  [j-1] ) 
L[i][j]  =  L[i-1]  [j]; 
else 

L[i][j]  =  L[i]  [j-1] ; 

> 

else  /*  a[i]  ==  b[j]  */ 

L[i]  [j]  =  1  +  L[i-1]  [j-1] ; 

图 6-31 填充 LCS 表的 C 语言程 序片段 


动 态规划 

术语 “动态 规划” 源自 R.E.Bellman 在 1950 年为解 决控制 系统中 的问题 所提出 的一般 理论。 
而 人工智 能领域 的工作 者通常 会将这 一 技术称 为备忘 （ memoing  ) 或制表 （tabulation)。 


像本 例这样 的填表 技术通 常称为 动态规 划算法 （dynamic  programming  algorithm)。 这种情 
况下， 它比 重复为 相同子 问题求 解的直 接递归 实现更 高效。 

♦ 示例 6.14 

设 x 是表 cbabac， 是表 abcabba。 图 6-32 展示 了为这 两个表 构建的 二维表 。 例如， Z(6,7) 
是&/67的 情况。 因此 Z(6, 7) 就是 它下方 和左侧 两个项 中的较 大者。 因为 这两项 分别为 4 和 3, 所 
以我 们右上 角的项 1(6, 7) 置为 4。 现在考 虑一下 Z(4,5)。 因为 a4 和 a5 都是 符号 b, 所以在 Z(4,5) 左下 
的 A3, 4) 这 项上加 1。 因为 该项为 2, 所以将 Z(4,5) 置为 3。 


①严格 地讲， 我 们只讨 论了是 一个单 变量函 数的大 0 表 达式。 不过， 这里要 表达的 意思应 该是明 了的。 如果 r(m,«) 
是该程 序处理 长度为 出和《 的表 的运行 时间， 那么存 在常数 叫)、 《 。和 C， 使得对 所有的 m 彡 讲。和《彡《。 ， 都有 
T(m,n)  ^  cmn 。 
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c  6 
a  5 
b  4 
a  3 
b  2 
c  1 
0 


0  1  2  3  3  3  3  4 

0  1  2  2  3  3  3  4 

0  1  2  2  2  3  3  3 

0  1  1  1  2  2  2  3 

00111222 
0  0  0  1  1  1  1  1 

00000000 
0 ~~ 1  ~~ 2 ~~ 3 ~~ 4 ~~ 5 ~~ 6 ~~ 7 

a  b  c  a  b  b  a 


图 6-32 对应 cbabac 和 abcabba 最 长公共 子序列 的 二维表 


6.9.3  LCS 的恢复 

现在就 得到了 能给岀 LCS 长 度的二 维表， 不仅能 给出问 题中两 个表的 LCS 的 长度， 而且可 
以 给出它 们每对 前缀的 LCS 的 长度。 从这 些信息 一定能 推导出 问题中 两个表 可能的 LCS 之一。 
要完 成这一 工作， 就要找 到形成 LCS 之一的 匹配元 素对。 我 们会找 到一条 从右上 角开始 穿越该 
二 维表的 路径， 而 这一路 径将确 定一个 LCS。 

假 设这条 从右上 角开始 的路径 已经将 我们带 到了第 / •行 第/列 ，也 就是该 二维表 中对应 元素对 
a,. 和 ~的点。 如果 a,.  =~， 你,刀 就是 1  + 邱 -1,7- 1) 。 因此 可以将 ■和 ~ 当 作已匹 配的元 素对， 
而且我 们会把 A  (也是 表示 的符号 包含在 LCS 中， 并排 在目前 为止所 有已被 找到的 LCS 元素 
之前。 然后 将路径 向左下 移动， 也就 是说移 动到第 /-I 行箄 /-I 列。 

不过， 也可能 ％ 矣 如果 这样， 你, _/) 肯定至 少与你 -U) 和你， 1) 中 的某一 个是相 等的。 
如果你 ,/)=冲-1,力， 就会把 路径向 下移动 一行， 否则， 就 知道你 ，力 =邶,_/-1)， 就会把 路径向 
左移动 一 '列。 

遵 循这一 规则， 最终会 到达左 下角。 至此， 就 已经选 定了一 个作为 LCS 的元素 序列， 而且 
该 LCS 本身 也是由 这些元 素组成 的表， 表中元 素的次 序与它 们被选 定的次 序是相 反的。 


c  6 
a  5 
b  4 
a  3 
b  2 
c  1 
0 


0  1  2  3  3  3  3  4 
0  1  2  2  3  3  3  4 
0  1  2  2  2  3  3  3 
0  1  1  1  2  2  2  3 
00111222 
0  0  0  1  1  1  1  1 
OOO00000 
0 1  2 ~~ 3 ~~ 4 ~~ 5 ~~ 6 ~~ 7 

abcabba 


图 6-33 找到最 长公共 子序列 cbba 的路径 


♦ 示例 6.15 

图 6-33 再次展 示了图 6-32 中的二 维表， 并将 路径加 粗表示 岀来。 我们从 值为 4 的 Z(6, 7) 开始。 
因为 a6 /卜， 所以立 刻向左 和向下 寻找值 4， 它至 少会在 这两个 位置中 的一个 出现。 在本 例中， 
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4 出现在 Z(6,7) 下方， 所 以我们 移动到 1(5, 7)。 现在有 a5 /卜， 都是 a。 因此 a 就是 该最长 公共子 
序列中 最后的 符号， 于 是我们 移向左 下方， 移动到 以4,6)。 

因为 fl4 和％ 都是 b, 所以将 b 放人 正在 成形的 LCS 中， 位于 a 之前， 而我 们继续 向左下 移动， 
移动至 Z(3,5)。 这里， 我 们发现 ％矣65, 不过 Z(3,5) 的值为 2, 与 它下面 和左边 的项都 相等。 在这 
种 情况下 我们选 择向下 移动， 所以接 下来要 移动到 1(2, 5)。 在该点 会看到 a2=65=b， 所 以我们 
将 b 放在 正在 成形的 LCS 前头， 并继续 向左下 移动到 1,4)。 

因为 ％/匕， 1(1, 4) 只有在 它左边 的项， 而且该 项有着 与它相 同的值 1， 所 以我们 移动到 
1(1,3)。 现在有 ai=~=c, 因此 可以将 c 添加到 LCS 的 前端， 并 移动到 Z(0,2)。 至此， 我 们别无 
选择， 只 能向左 移动到 1(0,1)， 然后 移动到 Z(0,0)， 最 终完成 了这条 路径。 得到的 LCS 由 我们发 
现的 4 个字符 按反序 组成， 就是 cbba。 这刚好 是我们 在示例 6.12 中提到 的两个 LCS 之一。 要得到 
其他的 LCS ， 可 以在你 ,_/) 与冲 -1,/) 和 1(/ ,y-l) 都相 等时选 择向左 移动而 非向右 移动， 并且在 你-1, 
/> 和 z(/,y-i) 其中之 一等于 时， 选 择向左 或向右 移动， 即 便是在 4=  ~ 的 情况下 （即 跳过某 
些 匹配而 直接到 达其左 边的匹 配)。 

可以 证明， 这一寻 路算法 总能找 到最大 公共子 序列。 我 们要利 用对两 个表长 度之和 进行完 
全 归纳加 以证明 的命题 如下。 

命题 负幻。 如 果在第 桁第/ 列， 其中 /+_/  =灸， 而且有 Z(z_,y)  =  v， 我 们随后 就会在 LCS 中 
找到 V 个元 素。 

依据。 依据是 々=  0 的 情况。 如果 /  +  7_  =  0, 那么 / 和/ 都为 0。 我 们已经 完成了 路径， 并发现 
LCS 不会 有更多 元素。 因为已 经知道 1(0, 0)  =  0, 所 以归纳 假设对 / +  7  =  0 成立。 

归纳。 假定对 &或更 小的和 的归 纳假设 成立， 并令 i+ j  =  k+\ o 假 设我们 在值为 v 的 y) 处。 
如果 就 找到了 匹配并 移动到 1) 。 因为 +  1) 的和 小于 /  +  1 ， 所 以归纳 
假 设是适 用的。 因为你 -l,y-l) —定是 V-1， 所以我 们知道 LCS 还 将找到 V-1 个 元素， 再 加上已 
经找到 的一个 元素， 就会 给我们 V 个元 素。 这一 直观结 果证明 了这种 情况下 的归纳 假设。 

唯一的 例外是 a,.  的 情况。 这种情 况下， 或 ， 或者这 两者， 一 定具有 
值 V， 而且 我们要 移动到 具有值 V 的这 些位置 之一。 因为 任一情 况下行 列值的 和都是 /  +  7_-1， 所 
以 归纳假 设是适 用的， 这 样就能 得出在 LCS 中 找到〆 h 元素的 结论。 这样 我们又 能得岀 sa  +  l) 为 
真的 结论。 因 为已经 考虑了 所有的 情况， 所以就 完成了 证明， 并 可以说 如果在 数据项 处， 
就 总是在 LCS 找岀 L{i,j) 个 元素。 

6.9.4  习题 

(1)  下 列表的 LCS 的长 度各为 多少？ 

(a)  banana 和 cabana 

(b)  abaacbacab 和 bacabbcaba 

(2)  * 找 到习题 (1) 两个 小题中 两个表 的所有 LCS。 提示： 在 为习题 (1) 构建 二维表 之后， 从右上 角往回 
追溯， 在遇 到有两 条或三 条不同 路径的 点时， 要顺着 每种选 择继续 移动。 

(3)  ** 假设使 用我们 最先描 述的递 归算法 而不是 推荐的 填表程 序计算 LCS。 如果 对两个 没有共 同符号 
的 表调用 Z(4,4)， 要 执行多 少次对 Z(l,l) 的 调用？ 提示： 使 用填表 （动态 规划） 算法 计算二 维表， 
给 岀对应 所有娜 /的祕 ，/) 的值。 将计算 结果与 4.5 节中的 帕斯卡 三角相 比较。 这一 关系表 示了与 
调用次 数的公 式有关 的哪些 信息？ 

(4) **假设有表1和表>；, 且二 者的长 度均为 n。 当《小 到一 定程度 之后， 就最 多只有 一个字 符串是 x 和 7 
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的 LCS 了， 虽然 该字符 串可能 岀现在 x 和 / 或 y 的不同 位置。 例如， 如果 《  =  1， 那么 LCS 只能是 e， 
除非 x 和 >；都 是同一 个符号 a, 这种 情况下 a 就是 唯一的 LCS。 那么， 让 x 和 7 可 以有两 个不同 LCS 的最 
小《 值是 多少？ 

(5)  证明图 6-31 所 示的程 序运行 时间为 0(mn) 。 

(6)  编写 C 语言 程序， 接受图 6-31 所示程 序计算 岀的那 种表， 并找岀 LCS 在 各字符 串中的 位置。 如果该 
表的 规格为 mxn ， 那么这 一程序 的运行 时间是 多少？ 

(7)  在 6.9 节 开头， 我们 表示过 LCS 的长 度是与 两个字 符串最 大位置 匹配的 大小有 关的。 

(a*) 通过对 6 的归纳 证明， 如果两 个字符 串有着 长度为 々的 公共子 序列， 那么 它们也 有着长 度为女 
的 匹配。 

(b)  证明： 如果 两个字 符串有 长度为 々的 匹配， 那么 它们也 有长度 为&的 公共子 序列。 

(c)  由 (a) 和 (b) 得岀， LCS 的长 度与匹 配的最 大值其 实是一 回事。 

6.10 字符串 的表示 

字符 串可能 是实践 过程中 最常见 的表的 形式。 表 示字符 串的方 法数不 胜数， 而且其 中一些 
技巧 很难适 用于其 他类型 的表。 因此， 本节 专门介 绍一些 与字符 串有关 的特殊 问题。 

首先， 应 该意识 到存储 单个字 符串基 本不成 问题。 通常， 我们有 大量很 短的字 符串。 它们 
可 能形成 词典， 意味 着我们 可以随 着时间 的推移 插人和 删除字 符串， 也可能 是静态 字符串 集合， 
时 间再久 也不会 改变。 下面要 讲两个 典型的 例子。 

(1)  字母 索引是 一种研 究文本 的实用 工具， 它是 由文档 中使用 过所有 单词以 及这些 单词岀 
现的位 置构成 的表。 在大型 文档中 通常会 有成千 上万个 不同的 单词， 而单 词每出 现一次 就要被 
存储 一次。 这一 单词集 合是静 态的， 也就 是说， 一 旦成形 就不会 改变， 除 非原有 的字母 索引中 
存在 错误。 

(2)  将 C 语言 程序转 化为机 器代码 的编译 器必须 记录表 示程序 变量的 所有字 符串。 大 型程序 
可 能拥有 成百上 千的变 量名。 想 想看， 分别在 两个函 数中声 明的局 部变量 i， 其实 是两个 不同的 
变量， 这 样就能 明白为 什么会 有如此 多的变 量了。 随 着编译 器对程 序加以 扫描， 会找到 新的变 
量名， 并将其 插入变 量名集 合中。 一旦 编译器 完成了 函数的 编译， 该函数 的变量 对随后 的函数 
来说 便不可 用了， 因此 可以删 除掉。 

在这 两个例 子中， 都 存在很 多短字 符串。 英语中 的短单 词比比 皆是， 而程 序员则 喜欢用 i 
或 x 这样 的字 母表示 变量。 另一 方面， 不管是 在英语 文本还 是在程 序中， 单 词的长 度都是 没有限 
制的。 

6.10.1  C 语 言中的 字符串 

C 语言程 序中可 能出现 字符串 常量， 而它们 会被存 储为字 符数组 ，后 面跟 上名为 空字符 （ null 
character) 且值为 0 的特 殊字符 “\0”。 不过， 在 上面提 到的应 用中， 我们 需要随 着程序 运行而 
创 建并存 储新字 符串的 便利。 因此， 需 要能向 其中存 储任意 字符串 的数据 结构。 其中一 些可能 
如下。 

(1)  使用定 长数组 存放字 符串。 比数 组短的 字符串 之后由 空字符 补齐。 而比数 组长的 字符串 
不能完 整地存 储到数 组中， 它们 必须被 截断， 只将长 度与数 组长度 相等的 前缀存 储到数 组中。 

(2)  与 (1) 类似的 模式， 但假 设每一 个字符 串或被 截断字 符串的 前缀之 后都有 一个空 字符。 
这种方 式简化 了字符 串的读 操作， 但它 让数组 中可以 存储的 字符串 的长度 减少了  1。 
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(3)  与 (1) 类似的 模式， 它不 会在字 符串后 放置空 字符， 而是 用另一 个整数 / ⑼济 財旨示 字符串 
的真实 长度。 

(4)  要避 免最大 字符串 长度的 限制， 可以将 字符串 中的字 符存储 为链表 元素， 而且可 以将多 
个字符 存储在 一个单 元中。 

(5)  可以 创建大 型字符 数组， 将很 多单独 的字符 串放置 其中。 而 每个字 符串就 由指向 该字符 
串开头 字符在 该数组 中位置 的指针 表示。 字符串 可能以 空字符 结尾， 也可能 有与之 关联的 长度。 

6.10.2 定长数 组表示 

我 们来考 虑一下 上述第 (1) 类 结构， 其中字 符串是 由定长 数组表 示的。 在 下面的 例子中 ，我 
们会创 建拥有 定长数 组作为 其中一 个字段 的结构 体。 

♦ 示例 6.16 

考虑一 下用来 存放索 引中某 一项， 即单 个单词 以及与 其相关 的信息 的数据 结构。 我 们需要 
存 放下列 内容。 

(1)  单词 本身； 

(2)  单词 岀现的 次数； 

(3)  表示 文档中 文本行 的表， 该单词 会在其 中出现 一次或 多次。 

因此可 以使用 如下结 构体： 

typedef  struct  { 
char  word [MAX] ; 
int  occurrences ; 

LIST  lines; 

}  WORDCELL; 

这里的 MAX 是 指单词 的最大 长度。 所有的 WORDCELL 结 构体都 包含一 个名为 word 的有 MAX 
个 字节的 数组， 不管 要存放 的单词 到底有 多短。 

字段 occurrence 是计算 某单词 岀现次 数的计 数器， 而 lines 则是指 向链表 开头的 指针。 
链表 中的单 元具有 由以下 宏定义 的常规 类型： 

Def Cell (int,  CELL,  LIST); 

每个单 元存放 着一个 整数， 表示 岀现问 题中单 词的文 本行。 请 注意， 如果 某个单 词在一 行中岀 
现若 干次， 那么 occurrence 就 要比表 的长度 更大。 

在图 6-34 中， 我们看 到表示 《圣经 • 创 世记》 第 1 章中 的单词 earth 的结 构体。 假设 MAX 
至少为 6。 表示行 （诗 句） 号的完 整表是 (1， 2,  10,  11， 12,  15,  17,  20,  22,  24,  25,  26,  28, 
29,  30)。 


word: 


nearth\0" 


occurrences :  20 

lines :  1 - ►  2 - ►10 - ► … 一 ►  30  • 


图 6-34 单词 earth 在 《圣经 • 创 世记》 第 1 章中的 索引项 


整个 索引可 能是由 一系列 WORDCELL 类 型的结 构体组 成的。 例如， 这 些结构 体可以 被组织 
为一棵 二叉查 找树， 有着 基于单 词字母 顺序的 < 次序。 在使用 字母索 引时， 该结 构体可 以提供 
相当 高的单 词访问 速度。 而随着 我们不 断扫描 文本， 找到并 列出各 单词的 出现， 它还能 让我们 
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高效 地创建 索引。 要使用 二叉树 结构， 就需要 在类型 WORDCELL 中 定义表 示左子 节点和 右子节 
点的 字段。 我们还 可以在 原始的 WORDCELL 类 型定义 中加入 “next” 字段， 从而将 这些结 构体排 
列在链 表中。 这是 一种更 简单的 结构， 不过 如果单 词数量 众多， 它 的效率 就要差 不少。 我们在 
第 7 章中 将会看 到如何 在散列 表中排 列这些 结构体 ，这 基本上 是解决 这一问 题的所 有数据 结构中 
性能最 佳的。 

6.10.3 字符 串的链 表表示 

字符串 长度的 限制， 以 及不管 字符串 有多短 都需要 分配固 定量的 空间， 这是 字符串 定长数 
组实现 的两大 缺点。 不过， c 语 言和其 他语言 都允许 使用者 构建其 他更为 灵活的 数据结 构来表 
示字 符串。 例如， 如果 希望字 符串长 度没有 上限， 可以 使用常 规的字 符链表 存放字 符串。 也就 
是， 可以声 明如下 类型： 

typedef  struct  CHARCELL  *CHARSTRING; 
struct  CHARCELL  { 
char  character ; 

CHARSTRING  next; 

>； 

在类型 WORDCELL 中， CHARSTRING 成了 word 字段 的类型 ，如： 

typedef  { 

CHARSTRING  word; 
int  occurrences ; 

LIST  lines; 

>  WORDCELL; 

例如， 单词 earth 可以 表示为 


e - ►  a - ►  r - ►  t - ►  h  參 


这种模 式消除 了单词 长度的 上限， 不过在 实际应 用中， 对空间 的利用 却不是 很好。 原因 在于， 
假设用 1 个字 节表示 字符， 并且 通常用 4 个字节 表示指 向链表 下一个 单元的 指针， 那 么每个 
CHARCELL 类型 的结构 体至少 要占用 5 个 字节。 因此， 绝大 部分空 间是由 指针的 “ 系统开 销”占 
用的， 只有少 部分空 间是由 字符的 “有效 负载” 使 用的。 

不过可 以更灵 活些， 将 若干字 节打包 装入每 个单元 的数据 字段。 例如， 如果 在每个 单元中 
放人 4 个 字符， 而 指针还 是消耗 4 个 字节， 那 么就有 一半空 间是由 “有效 负载” 使 用的， 而每单 
元 一个字 符的模 式只有 20% 的有效 负载。 唯 一要注 意的地 方是， 必须用 某一字 符 （ 比如 说空字 
符） 作 为字符 串终止 字符， 就像存 储在数 组中的 字符串 所做的 那样。 一般 而言， 如果 CPC 
(Characters  Per  Cell, 每 单元字 符数） 是我们 希望在 一个单 元中放 置的字 符数， 就 可以按 照如下 
声 明定义 单元： 

typedef  struct  CHARCELL  *CHARSTRING; 

struct  CHARCELL  { 

char  characters [CPC] ; 

CHARSTRING  next; 

>； 

例如， 如果 CPC=4， 就可以 将单词 earth 存储在 两个单 元中， 形如： 


h 

\0 
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也 可以将 CPC 增加到 4 以上。 这样做 的话， 指针所 占空间 的比例 进一步 下降， 这是很 好的情 
况， 意 味着使 用链表 的系统 开销下 降了。 另一 方面， 如果 使用非 常大的 CPC 值， 就 会发现 ，几 
乎 所有单 词都只 需要使 用一个 单元， 但是该 单元中 可能有 很多未 使用的 位置， 就像 长度为 CPC 
的数组 那样。 

♦ 示例 6.17 

假设 在所有 的字符 串中， 有 30% 是长为 1 到 4 个字 符的字 符串， 40% 是长 5 到 8 个字 符的， 20% 
是 9 到 12 个字 符的， 还有 10% 是 13 到 16 个字 符的。 图 6-35 中的 表给出 了表示 4 个范 围的单 词的链 
表， 在 CPC 分别为 4、 8、 12 和 16 时所 占的字 节数。 就我们 假设的 单词出 现频率 而言， CPC=8 的 
结 果最佳 ，平均 要使用 15.6 个 字节。 也就 是说， 每 个单元 最好用 8 个 字节存 放字符 ，加 上存放 next 
指针的 4 个 字节， 即 每个单 元总共 要使用 12 个字节 。请 注意 总空间 开销， 在 加上指 向表前 端的指 
针 之后， 就 达到了  19.6 字节， 就不 如使用 16 字节的 字符数 组那么 好了。 不过， 这 种链表 模式也 
可以 容纳长 度超过 16 个字 符的字 符串， 虽 然这里 假设找 到这样 这种字 符串的 概率为 0。 


每单元 字符数 

范围 

概率 

4 

8 

12 

16 

1-4 

0.3 

8 

12 

16 

20 

5-8 

0.4 

16 

12 

16 

20 

9-12 

0.2 

24 

24 

16 

20 

13-16 

0.1 

32 

24 

32 

20 

平均 

16.8 

15.6 

17.6 

20.0 

图 6-35 当 cpc 为不同 值时， 不 同长度 范围的 字符串 使用的 字节数 

6.10.4 字符 串的海 量存储 

还存 在另一 种存储 大量字 符串的 方法， 它 兼具数 组存储 的优势 （低 系统 开销） 与链 表存储 
的优势 （因为 填充而 不浪费 空间， 且字 符串长 度无限 制)。 我们 创建一 个非常 长的字 符数组 ，并 
将 每个字 符串都 存储到 这一数 组中。 为了 区分一 个字符 串的结 束与下 一个字 符串的 开始， 需要 
一 个名为 端记号 (endmarker) 的特殊 字符。 端记 号字符 不是合 法字符 串的一 部分。 尽管 选择不 
打印 的字符 （比 如空 字符） 是更常 见的， 不过为 了便于 识别， 在接 下来的 内容中 会使用 * 作为端 
记号。 

♦ 示例 6.18 

假 设通过 

char  space [MAX] ; 

声 明数组 space。 然后就 可以通 过给出 指向某 单词在 space 数组中 第一个 位置的 指针来 存储该 
单 词了。 模 仿示例 6. 16 中 WORDCELL 结构 体的 WORDCELL 结构 就是： 

typedef  struct  { 
char  *word; 
int  occurrences ; 

LIST  lines; 

>  WORDCELL; 

在图 6-36 中， 我们看 到表示 《圣经 •创 世记》 的字 母索引 中单词 the 的 WORDCELL 结构体 Q 不过 
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接下来 的情况 并不是 这样。 即便 接下来 的元素 中含有 beginning、 God 和 created,  space 数 
组也不 会岀现 第二个 the 了。 通过 增加 WORDCELL 结构 体中对 应单词 the 的 occurrences 的值， 
该单 词就被 记录在 列了。 随着 在这本 书中继 续向前 处理， 发 现单词 更多的 重复， space 数组中 
的项就 不再像 《圣 经》 原文那 样了。 


就 像示例 6. 16 中 那样， 示例 6. 1 8 中 的结构 体也可 以通过 添加指 向 WORDCELL 结 构体的 合适指 
针字 段形成 二叉查 找树或 链表这 样的数 据结构 。函 数辦的 ，的) 可以按 照两个 WORDCELL 类 型结构 
体叭和 叭的 word 字段的 词典顺 序对二 者加以 比较。 

要 使用这 样的二 叉查找 树构建 索引， 需要使 用指针 available 指向 space 数 组中第 一个未 
被 占用的 位置。 一 开始， available 指向 space  [0] 。 假设对 要构建 索引的 文本进 行扫描 ，并 
且找到 下一个 单词， 比 方说是 the。 我 们现在 不知道 the 是否已 经在二 叉查找 树中， 因此 要临时 
将 the* 添加到 available 指向 的位置 以及接 下来的 3 个位 置中。 记住， 这 一新添 加的单 词要占 
用 4 个 字节。 

现在可 以在二 叉查找 树中查 找单词 the 了。 如果 找到该 单词， 就在其 出现次 数的计 数器上 
加 1， 并将 当前行 插入表 7K 文本 彳了的 表中。 如果未 找到， 就创 建含有 WORDCELL 结 构体的 各个字 
段以 及左子 节点和 右子节 点指针 （都为 NULL) 的新 节点， 并 将其插 入树中 合适的 位置。 我们将 
新 节点的 word 字 段置为 available, 这样 一来它 就指向 我们这 里单词 the 的副 本了。 再将 
occurrences 置为 1 ， 并创 建由当 前文本 行的组 成的表 示字段 lines 的表。 最后， 必须给 
available 加上 4， 因为现 在已经 把单词 the 永久 地加入 space 数 组了。 


空 间用尽 时会发 生什么 情况？ 

我们 假设了  space 是足够 大的， 从 而总是 有空间 容纳新 添加的 单词。 实际情 况是， 每当添 
加 新的字 符时， 我们都 必须注 意当前 写入字 符的位 置一定 要小于 MAX。 

如 果想在 空间用 尽后输 入新的 单词， 就 需要准 备好在 旧块用 尽后获 得新空 间块。 并 不是创 
建数组 space, 而是 要定义 字符数 组类型 
typedef  char  SPACE [MAX] ; 

接着可 以按 照如下 定义创 建 新数组 ，其中 available 指向 数组的 第一个 字符。 
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available  =  (char  *)  malloc (sizeof (SPACE) ) ; 

只要直 接赋值 

last  =  available  +  MAX; 

就能得 到该数 组的末 端了。 

然后 可以向 available 指 向的数 组插入 单词。 如 果没办 法再往 该数组 中装入 单词， 就可 
以调用 malloc 创 建另一 个字符 数组。 当然， 一 定要注 意不要 让写操 作越过 数组的 末端， 而且 
如 果遇到 长 度大于 MAX 的 字 符串， 就没办 法以这 种模式 存储单 词了。 


6.10.5  习题 

(1)  针 对示例 6.16中讨论的结构体类型1^01100£1^， 编 写如下 程序。 

(a)  函数 create, 要返 回指向 WORDCELL 类型结 构体的 指针。 

(b)  函数 insert  (WORDCELL  *pWC,  int  line) , 接 受指向 WORDCELL 结构体 的指针 以及行 号， 
在该单 词的 出现次 数上加 1， 而且如 果该行 未岀现 在表示 各行的 表中， 就将 其添加 进去。 

(2)  重 做示例 6.17, 假设 长度从 1 到 40 的 单词都 等可能 出现， 也就是 10% 的单词 长度为 1 至 4,  10% 的为 5 
至 8, 等等， 直到 10% 的在 37 到 40 这个范 围内。 如果 CPC 分别为 4、 8、 …、 40, 分别 平均需 要多少 
个 字节？ 

(3)  * 在示例 6.17 的模 型中， 如果从 1 到 n 的所 有单词 长度都 等可能 岀现， 那么 CPC 为何值 （表 示为 n 的 
函数） 时使用 的字节 数是最 少的？ 如果 得不岀 具体的 答案， 也可 以用大 0 近 似值来 表示。 

(4)  * 使 用示例 6.18 中所 示结构 体的优 势之一 在于， 在 两个或 多个单 词中可 以共享 space 数组的 一些部 
分。 例如， 在图 6-36 所示的 数组中 ， 有单词 he 的 word 字 段等于 5。 对单词 all 、 call 、 man、 mania、 
maniac、 recall、 two、 woman 进行 压缩， 使其在 space 数 组中占 用尽可 能少的 元素。 通过压 
缩 可以节 省多少 空间？ 

⑶* 另一种 存储单 词的方 法要从 space 数组 中消除 端记号 字符。 并且要 为示例 6.18 中的 WORDCELL 结 
构 体加人 length 字段， 从而表 示岀在 word 字段 表示的 单词中 从第一 个字符 起共有 多少 个字符 
假设 length 字段 的整数 要占用 4 字节， 那么这 种模式 与示例 6.18 中 的模式 相比， 是 节省了 空间还 
是 更耗费 空间？ 如 果存储 该整数 只需要 1 字 节呢？ 

(6)  ** 习题 (5) 中描述 的方案 也带来 了压缩 space 数组的 可能。 现在 即便单 词之间 没有任 意一方 是另一 
方的 后缀， 也可以 互相重 叠了。 使 用习题 (5) 中的 模式， 存 储习题 (4) 表中的 单词， 需要 space 数组 
中 多少个 单元？ 

(7)  编写 程序， 接 受示例 6.18 中讨论 的两个 WORDCELL 结 构体， 并 确定哪 个结构 体中的 单词在 词典次 
序上 先于另 一个。 回想 一下， 示例 6.18 中单词 都是由 *终 结的。 

6.11 小结 

本 章涵盖 了以下 要点。 

□ 表是一 种表示 元素序 列的重 要数据 模型。 

□ 链表 和数组 是两种 可用于 实现表 的数据 结构。 

□ 表是词 典抽象 数据类 型的一 种简单 实现， 不过其 效率无 法与第 5 章 中的二 叉查找 树和第 7 
章中 的散列 表相提 并论。 

□将 “ 哨兵” 放置 在数组 末尾， 从而 确保找 到正在 寻找的 元素， 是一 种实用 的提高 效率的 
方法。 
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□ 栈 和队列 都是特 殊类型 的表。 

□ 栈是实 现递归 函数的 “ 幕后英 雄”。 

□字 符串是 表的一 种重要 特例， 而且 有若干 种特殊 的数据 结构可 以有效 地表示 字符串 ，其 
中 包括每 单元存 储若干 字符的 链表， 以 及由很 多字符 串共享 的大型 数组。 

□ 找 出最大 公共子 序列的 问题可 以通过 “动态 规划” 技术 有效地 解决， 在动 态规划 过程中 
我们 会按照 合适的 次序填 充信息 表格。 
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第 7 章 

集合数 据模型 


集合 （简 称为 “ 集”） 是 最为基 础的数 学数据 模型。 数学中 的每种 概念， 从树到 实数， 都可 
以表示 为一类 特殊的 集合。 在本 书中， 我 们已经 见识过 以概率 空间中 事件的 形式岀 现的集 。词 
典抽 象数据 类型就 是一种 集合， 可以对 其执行 插入、 删除和 查找这 些特殊 操作。 因此， 说集合 
也 是计算 机科学 中的基 础模型 应该不 会让人 惊讶。 在本 章中， 我们 要了解 与集合 有关的 基本定 
义， 并考虑 有效实 现集合 操作的 算法。 

7.1 本章主 要内容 

本 章将涵 盖以下 主题。 

□ 集合 论的基 本定义 以及集 合的基 本运算 （  7.2 节和 7.3 节)。 

□  3 种最常 用于实 现集合 的数据 结构： 链表、 特征向 量和散 列表。 我们 将比较 这些数 据结构 
在支持 各种集 合运算 时的效 率 （  7.4 节〜 7.6 节)。 

□ 作为有 序对集 合的关 系和函 数 （  7.7 节)。 

□ 表示关 系和函 数的数 据结构 （  7.8 节和 7.9 节)。 

□特 殊类型 的二元 关系， 如 偏序关 系和等 价关系 （7.10 节)。 

□ 无限集 (7. 11 节)。 

7.2 基 本定义 

在数 学中， 术语 “ 集合” 是没有 明确定 义的。 就像几 何中的 “ 点”和 “线” 那样， 集合也 
是由其 属性定 义的。 具体 地说， 有 只适用 于集合 的成员 概念。 当 ^ 为集 合， 而 X 为任 意事 物时， 
我们 可以提 出如下 问题： “X 是否 为集合 劝勺成 员？” 集合 就 是由所 有属于 S 的成员 的元素 X 组成 
的。 以下 几点总 结了与 集合有 关的一 些重要 概念。 

(1)  表达式 xeS 意味 着元素 x 是集合 51 的 成员。 

(2)  如果 …, 都是集 合劝勺 成员， 就可 以写为 

S  =  {xvx2,---,xn} 

在 这里， 每个 X 都是不 同的， 在集合 中任一 元素都 是不能 重复岀 现的。 然而， 集 合中各 
成员的 顺序是 无关紧 要的。 

(3)  空 集记为 0， 表示没 有任何 成员的 集合。 也就 是说， 不管 x 是什 么， xe0 都 为假。 
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♦ 示例 7.1 

设 5  =  {1， 3, …， 6} ， 也就 是说， 是只 含有整 数成员 1、 3、 6 的 集合。 我们 可以说 le 又 3e5 
和 6^。 不过， 命题 2d 为假， 说其他 任何内 容是施 J 成员 的命 题也都 为假。 

集合 还能以 其他集 合作为 成员。 例如， 设 r  =  <{l,2},3,0|。 那么 r 就有 3 个 成员。 第 一个成 
员 是集合 {1， 2}， 也就 是说， 含有 1 和 2 作为 成员的 集合。 第二 个成员 是整数 3。 第 三个成 员是空 
集。 下列命 题是真 命题： {h  2}  e  T,  3eT, 以及 0  er。 不过， leT 为假。 也就是 说， 1 是 r 的成 
员的 成员， 但这不 意味着 1 是 # 身的 成员。 

7.2.1 原子 

在正式 的集合 论中， 除了集 合别无 他物。 不过， 在 非正式 的集合 论中， 以及 在基于 集合的 
数据结 构和算 法中， 可以 放心地 假设存 在某些 原子。 原子是 非集合 元素。 原子可 以是集 合的成 
员， 但没 有什么 可以是 原子的 成员。 谨记， 空集就 像原子 那样是 没有成 员的。 不过， 空 集是集 
合， 而不是 原子。 

我 们一般 会假设 整数和 小写字 母都是 原子。 在谈论 数据结 构时， 使用 复杂的 数据类 型作为 
原 子的类 型通常 是很方 便的。 因此， 原子可 以是看 上去不 那么像 “ 原子” 的结 构体或 数组。 


集 合与表 

虽 然表的 表示法 (私 x2, …， x„) 与集 合的 表示法 私， x2, …， 非常 相似， 但它 们之间 存在很 
大 区别。 首先， 集合中 元素的 次序是 无关紧 要的。 写为 {1,2} 的集 合也可 以写作 {2,1}。 相反， 
表 (1,2) 与表 (2J) 就 不是一 回事。 

其次， 表中元 素是可 以重复 的。 例如， 表 (1,2, 2) 有 3 个 元素， 第 一个是 1， 第 二个是 2， 第 
三 个也是 2。 集合 {1,2, 2} 是不存 在的。 元素 （ 比如 这里的 2) 作为成 员在集 合中出 现的次 数不能 
超过 一次。 上述 集合要 有意义 的话， 它就与 {1,2} 或 {2,1} (也 就是 只含有 1 和 2 这两 个成员 ，不 
含其他 成员的 集合 ） 相同。 

有时候 会提到 多重集 或无序 单位组 （bag), 就 是允许 其中元 素出现 多次的 集合。 例如 ，我 
们可 以说出 现一次 1 和两次 2 的多 重集。 不过多 重集与 表是不 同的， 因为多 重集中 的元素 也是没 
有次 序的。 


7.2.2 通 过抽象 对集合 的定义 

枚 举集合 的成员 不是定 义集合 的唯一 方式。 通常， 更方 便的做 法是， 从某集 合^ 与元 素的某 
属性 P 开始， 然 后定义 ^ 中具 有属性 P 的元 素为 集合。 这一操 作对应 的表示 法称为 抽象， 就是 

{jc|xe  姐尸 (X)} 

或者说 Y 中元素 x 的集 合都是 具有属 性尸的 X”。 

上述表 达式称 为集合 形成法 ( set  former  )0 集合形 成法中 的变量 x 是对应 某一表 达式的 ，我 
们也 可以用 


来表 示同一 集合。 


{y\yeSKP(y)} 
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♦ 示例 7.2 

设*5 是示例 7.1 中 的集合 {1,3, 6}。 设 P(x) 是属性 “x 为 奇数” ，贝 IJ 

{xlxd 且; c 为奇数 } 

是定 义集合 {1,3} 的 另一种 方式。 也就 是说， 我 们接受 ^ 中的 元素 1 和 3, 因为 它们是 奇数， 而 6 不 
是 奇数， 所以我 们拒绝 了它。 

再举个 例子， 考虑源 自示例 7.1 的集合 r  =  |{l,2},3,0；[ ， 那么 

^£7^且3为集合} 

就表 示集合 {{1，2}，0}。 

7.2.3 集合的 相等性 

一 定不能 将集合 的实际 组成与 其表示 形式相 混淆。 两 个集合 相等， 也就 是说， 如果 它们刚 
好有 相同的 成员， 那 么它们 其实是 相同的 集合。 因此， 大多数 集合有 很多不 同的表 示方式 ，包 
括以 某种次 序直接 枚举集 合中的 元素， 以 及使用 抽象的 表示。 

♦ 示例 7.3 

集合 {1， 2} 是有 且只有 1 和 2 这两个 成员的 集合。 我们可 以按照 任一次 序表示 这两个 元素， 
所以 {1,2}  =  {2,1}。 还 有其他 很多通 过抽象 表示该 集合的 方式， 例如 

{x|xe{l，2,3} 且  x<3} 

就等 于集合 {1,2}。 

7.2.4 无限集 

我们不 介意假 设集合 都是有 限的， 也就 是说， 存在某 个整数 使得 集合刚 好具有 〃个 成员。 
例如， 集合 {1,3, 6} 具有 3 个 成员。 还有 一些集 合是无 限的， 意 味着没 有具体 的整数 能表示 该集合 
中 元素的 个数。 我们熟 悉的无 限集包 括下列 几种。 

(1) N, 非负整 数集。 

(2) Z, 整 数集。 

(3) R, 实 数集。 

(4) C, 复 数集。 

通过 抽象， 可以 根据这 些集合 创建其 他的有 限集。 

♦ 示例 7.4 

集合 形成法 

{x|xe  Z 且  x<3  } 

表 示由所 有负整 数以及 0、 1 和 2 组成的 集合， 而集合 形成法 

e  Z_K  yfx  g  Z  } 

表示 的 是完全 平方的 整数 集合， 也就是 {0, 1 ,4,9, 1 6, … } 。 

再 看一个 例子， 设 是 “X 为 质数”  (SP  x>l, 且 jc 只能被 1 和 它本身 整除） 这 一属性 。那 
么 质数集 就可以 表示为 

{x|xe  N  且尸 (x)} 

这一表 达式表 示的是 无限集 {2,3,5,  7,11,〜}。 
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无限集 有一些 微妙而 有趣的 属性我 们将在 7.11 节中 再来讨 论这一 问题。 

7.2.5  习题 

(1)  集合 {{4}， M， {以}} 的成 员都有 哪些？ 

(2)  写 岀以下 集合的 集合形 成法表 达式。 

(a)  大于 1000 的整 数集合 。 

(b)  偶 整数的 集合。 

(3)  用两 种不同 的表示 方式分 别表示 下列各 集合， 一 种使用 抽象， 另一 种不使 用抽象 , 

(a)  {a,  b,  c} 

(b)  {0,  1,  5} 


罗 素悖论 

有人 也许想 知道， 为什 么抽象 操作要 求我们 指明另 一个 集合， 然 后必须 从该集 合中选 出构成 新集合 
的 元素。 为 什么不 能直接 使用 {x| 尸 (x)} 这 样的表 达式， 例如 ，用 

{x|x 是蓝 色的 } 

来定 义由所 有蓝色 事物组 成的集 合呢？ 原因 在于， 如果用 这种概 括方式 来定义 集合， 就会 让我们 陷入一 
种由数 学家伯 特兰. 罗素 （ Bertrand  Russell ) 发现的 名为罗 素悖论 （ Russell  Paradox  ) 的逻 辑矛盾 之中。 
我们在 听说镇 上的理 发师只 给不自 己剃 胡子的 人剃胡 子时， 就已经 接触到 这一悖 论了。 如果 他给自 己剃 
胡子， 就 不该给 自己剃 胡子； 而如果 他不给 自己剃 胡子， 就 可以给 自己剃 胡子。 引 发这种 矛盾的 原因是 
“只给 不自己 剃胡子 的人剃 胡子” 这一 说法， 尽管看 起来很 合理， 但其实 是说不 通的。 

要理 解罗素 悖论是 如何关 系到集 合的， 先假设 可以用 {x| 尸 (x)} 的形 式对任 意属性 尸定义 集合。 接 着设属 
性尸 (x) 是 “x 不是 x 的成 员”。 也 就是说 ， 设 P 属性 在集合 x 不是其 本身成 员的情 况下适 用于该 集合。 令 5* 为集合 

S  =  {x|x 不是 x 的成员 } 

现 在问， 是否 为它本 身的成 员？” 

情况 1: 假设* S 不是 5的 成员。 那么 户⑶ 为真， S 就 是集合 {x|x 不是 X 的成员 }的 成员。 不 过该集 合就是 
所以通 过假设 S 不是它 本身的 成员， 我们 证明了 S 其 实是它 本身的 成员。 因此， 不能有 S 不是 它本身 成员的 
结论。 

情况 2: 假设 S 是它 本身的 成员。 那么 S 就不 是集合 {x|x 不是 x 的成员 }的 成员。 不过 该集合 也就是 5， 
这样就 得出了 5* 不 是它本 身成员 的 结论。 

因此， 当我 们假设 p(5) 为 假时， 就证 明了它 为真， 而当我 们假设 p(5) 为 真时， 我 们又证 明了它 为假。 
因 为不管 怎样都 会得出 矛盾， 这样就 只能把 责任归 咎于这 一表示 方法。 也 就是说 ， 真正的 问题在 于按照 
这 样的方 式定义 集合* s 是行不 通的。 

罗素 悖论另 一个有 趣的推 论是假 设存在 “所有 元素的 集合” 也是行 不通的 。如 果存在 这样的 “全 集”， 
比 方说 U , 那么就 可以说  {x|xe  [/且 x 不 是 X 的成员 } 

而且再 次得到 了罗素 悖论。 这 样就不 得不完 全放弃 抽象。 但是 抽象操 作十分 实用， 不容 放弃。 


7.3 集合 的运算 

有 一些操 作集合 的特殊 运算， 比如 并集和 交集。 大 家可能 熟悉其 中很多 运算， 但我 们在此 
将回顾 一些最 重要的 运算， 在下 一节中 我们将 讨论这 些运算 的一些 实现。 


7.3.1 并集、 交集 和差集 
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也许结 合集合 最常用 的方式 就是进 行以下 3 种 运算。 

(1)  两 个集合 ^ 和 r 的并 集， 记作 sur， 表示含 有集合 集合 r 中或同 在二者 之中的 元素的 
集合。 

(2)  两个 集合讶 nr 的 交集， 记作 snr， 表示含 有同在 集合诉 n 集合 r 中的 元素的 集合。 

(3)  两 个集合 ^ 和 r 的 差集， 记作 s-r， 表 示含有 在集合 ^ 中但不 在集合 r 中的 元素的 集合。 

♦ 示例 7.5 

设提 集合 {1,2, 3}， r 是集合 {3, 4, 5}, 那么 
5ur-{i,2,3,4,5} ,  snr  =  {3} , 而 s-r  =  {i,2}。 

也就 是说， sur 包含了 岀现在 ^或了 中的 所有 元素。 虽然 3 同时 岀现在 ^ 和 r 中， 但是 sur 中当然 
只能出 现一个 3, 因为 元素在 一个集 合中不 能出现 多次。 snr 只含 3, 因为 没有其 他元素 同时出 
现在 s 和 r 中。 最后 s-r 含有 1 和 2， 因 为这两 个元素 岀现在 ^ 中而未 岀现在 r 中。 元素 3 没 有岀现 
在 s-r 中， 因为虽 然它在 ^ 中岀 现了， 但它 也岀现 在了中 了。 

当集合 ^ 和 7 是概 率空间 中的事 件时， 并集、 交 集和差 集就有 了一层 含义。 尤是 ^ 发生或 
r 发生 （ 或都 发生） 的 事件。 川符尤 是诉 卩待卩 发生的 事件。 r 是 5 发生但 r 不发 生的 事件。 不过， 
如果 51 2 3 4 5  是 表示整 个概率 空间的 集合， 那么 尤是 “r 不 发生” 这一 事件， 也就是 扣勺 补集。 

7.3.2 文氏图 

将涉及 集合的 运算看 作称为 文氏图 (Venn diagrams) 的图 片通常 是很有 用的。 图 7-1 中的文 
氏 图表示 ^ 和 r 这两个 集合， 它 们在图 中表示 为两个 椭圆。 这两个 椭圆将 整个平 面分为 4 个 区域， 
我 们分别 用数字 1 到 4 标记这 4 个 区域。 


图 7-1 表示 对应基 本集合 运算的 文氏图 的区域 

(1)  区域 1 表示 既不在 ^ 中也 不在 r 中的 元素。 

(2)  区域 2 表示 r， 那些在 ^ 中但 不在 r 中的 元素。 

(3)  区域 3 表示 snr, 那 些既在 s 中也在 r 中的 元素。 

(4)  区域 4 表示 r- 又 那些在 r 中但不 在^ 中的 元素。 

(5)  区域 2、 3、 4 结 合在一 起表示 sur, 那些在 s 中或在 r 中， 或同 在二者 之中的 元素。 
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代数是 什么？ 

可以 想到， 术语 “ 代数” 指 的是解 决单词 问题， 求出 多项式 的根， 以 及高中 代数课 程中涵 
盖 的其他 问题。 不过， 对 数学家 来说， 术语 “ 代数” 指的是 存在可 用于构 建表达 式的操 作数和 
运 算符的 任一种 系统。 为 了让代 数变得 有趣而 实用， 通常 会有一 些特殊 常量和 法则， 让 我们可 
以 将一个 表达式 变形为 另一个 “等 价的” 表 达式。 

最常 见的代 数的操 作数是 整数、 实 数或是 复数， 或是表 示这些 类型中 某一种 类型的 值的变 

量， 而 运算符 则是普 通算术 运算符 - 力 p 号、 减号、 乘号、 除号 。 常数 0 和 1 是特 殊的， 而且满 

足 x  +  0  =  x 这样的 法则。 在 处理算 术表达 式时， 可以使 用诸如 分配律 这样的 法则， 让 我们用 
flx(Z>  +  c) 这 样的等 价表达 式来替 代形如 ax6  +  tt  +  c 的表达 式。 请 注意， 通 过这种 变形， 可以减 
少一 次算术 运算。 对 表达式 进行这 种代数 变换的 目的通 常是找 出与原 表达式 等价， 但求 值所需 
时间更 少的表 达式。 

纵观 全书， 我 们会遇 到各种 类型的 代数。 8.7 节介绍 了关系 代数， 是 对我们 在此讨 论的集 
合 代数的 一 般化； 1 0.5 节 谈论 了描 述字符 串模式 的正则 表达式 代数； 1 2.8 节 介绍了 逻辑 类型的 
布尔 代数。 


尽 管我们 已经说 明了图 7-1 中 的区域 1 具有 有限的 范围， 不过应 该记住 的是， 该区域 表示的 
是 s 和 r 之外的 一切。 因此， 该区 域并非 集合。 如果该 区域是 集合， 那么 将其与 ^ 和 r 进行 并集运 
算， 就 会得到 “全 集”， 而根 据罗素 悖论可 知这种 “ 全集” 是不存 在的。 不过， 通 常可以 将不在 
文氏 图明确 表示的 任一集 合中的 元素画 为一个 区域， 就像我 们在图 7-1 中所 做的。 

7.3.3 并集、 交 集和差 集的代 数法则 

人们 可以仿 照诸如 +和* 这样 的算术 运算代 数来定 义集合 代数， 在 集合代 数中， 运算 符就是 
并集、 交集和 差集， 而操 作数就 是集合 或表示 集合的 变量。 一旦可 以构建 i?u(0nr)-LO 这样的 
复杂表 达式， 就可以 询问两 个表达 式是否 等价。 也就 是说， 不管用 什么集 合替换 作为操 作数的 
变量， 它们总 是表示 相同的 集合。 通过将 一个表 达式替 换为等 价的表 达式， 有时 能简化 涉及集 
合的表 达式， 使 其能更 高效地 求值。 

接下 来的内 容中， 我 们将列 出用于 并集、 交集和 差集的 最重要 的代数 法则， 也就是 断言一 
个表 达式与 另一个 表达式 等价的 命题。 符号 = 用于表 示表达 式的相 等性。 

在多种 代数法 则中， 一方 面是在 并集、 交集和 差集之 间有着 一种相 似性， 另 一方面 是与整 
数的 加法、 乘法 和减法 相似。 不过， 我 们将指 岀那些 与普通 算术不 存在相 似性的 法则。 

(a)  并 集的交 换律： csur^(nJ5)。 也就 是说， 在 并集运 算中， 两个集 合中哪 个出现 在前面 
都 是没关 系的。 这 一法则 成立的 原因很 简单。 如果 X 在 s 中， 或 x 在 r 中， 或同 在两者 之中， 
就 有元素 X 在 sur 中。 而这正 好就是 jc 在 r us 中所要 满足的 条件。 

(b)  并 集的结 合律： (SUiTUR))  ^(SUT)UR)0 也就 是说， 3 个集 合的并 集既可 以写为 首先求 
前两个 集合的 并集， 也可 以写为 首先求 后两个 集合的 并集， 不 管哪种 情况， 结果 都是一 
样的。 我 们可以 像验证 交换律 那样， 通 过论证 当且仅 当元素 在右边 的集合 中时才 在左边 
的集 合中， 从而 验证结 合律。 直 观的理 由就是 两个集 合中含 有的， 都正好 是那些 岀现在 
义 域及 中， 或任 意两者 之中， 或 同在三 者之中 的那些 元素。 
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并集 的交换 律和结 合律一 起告诉 我们， 可以按 照任意 次序为 一系列 集合求 并集。 结果总 
是同一 个元素 集合， 也就 是岀现 在需要 求并集 的一个 或多个 集合中 的那些 元素组 成的集 
合。 这一论 证就像 我们在 2.4 节中 表示加 法时用 到的， 而加法 运算中 也存在 交换律 和结合 
律。 那 时我们 证明过 用所有 方法组 合求和 算式都 会得到 相同的 结果。 

(C) 交 集的交 换律： (SHT)  ^  (Tns)o 直觉 上讲， 元素 X 在集合 snr 和 7T15 中刚 好是在 相同的 
情 况下， 也 就是当 ^:在^ 中而且 1在7^中 时。 

⑹ 交 集的结 合律： (sn(TnR))  ^  (snT)nR)0 直觉 上讲， 元素 x 在所 述的这 两个集 合中， 
刚好是 当元素 x 同在义 r 和 尺 这 3 个集合 中时。 就像加 法或并 集运算 那样， 对任意 一些集 
合的 交集运 算也可 以按照 我们选 择的方 式进行 组合， 而 且结果 都是相 同的， 特别 要指岀 
的是， 结果 就是同 时出现 在所有 集合中 的那些 元素。 

(e) 交集 对并集 的分配 律:就 像我们 所了解 的乘法 对加法 的分酉 S 律， 即 ax(6  +  c)  =  ax^  +  axc 
那样， 法则 

(sn  (rui?)) 三 ((5n7)U(5ni?)) 

对集合 而言也 成立。 直觉 上讲， 元素 X 要分 别在这 两个集 合中， 刚 好是当 X 在 s 中， 并且 
至少在 r 和 尺 其中 一个之 中时。 同样， 利用并 集和交 集的交 换律， 可以 从右边 起分配 交集， 
就像 

((r  =  ((T  ns)U(Rns)) 

⑴ 并 集对交 集的分 配律： 同样， 

(5U(rni?))  =  ((5U7)n(5U^)) 

是成 立的。 左右两 边都是 包含在 ^ 中或 同时在 r 和尺中 的元素 X 的 集合。 请 注意， 将 并集运 
算 替换为 加法， 并将交 集运算 替代为 乘法， 这样 形成的 算术运 算法则 为假； 也就 是说， 
a  +  bxc 在 一般情 况下是 不等于 0  + 的 x(fl  +  C) 的 。这一 法则就 是集合 运算与 算术运 算相似 
性 被打破 的情况 之一。 就像在 (e) 法则中 那样， 我们可 以利用 并集的 交换律 得到等 价法则 

((rn^u.s)  =((r us)  d(rus)) 


♦ 示例 7.6 

设 5  =  {1，2,3}， r  =  {3,4,5} , 穴={1，4,6}。 那么 

lSU(rni?)  =  {l,2,3}U({3,4,5}n{l,4,6}) 

=  {1,2,3}U{4} 

=  {1,2, 3, 4} 

另 一 '方面 

(SUT)n(SUR)  =  ({l,2,3}U  {3, 4, 5}) n ({1, 2, 3}  U  {1, 4, 6}) 

= {1, 2,3, 4,5  }n  {1,2, 3, 4, 6} 

- {1,2,3,4} 

因此， 并集 对交集 的分配 律在这 种情况 下是成 立的。 当然， 这 并没有 证明这 一法则 在一般 
情况 下是成 立的， 不 过我们 在规则 ⑴中给 岀的直 觉论证 应该是 有说服 力的。 

(g)  并 集和差 集的结 合律：  os-CTUi?)) 三 （巧-乃-尺)。 两边 所包含 的元素 X， 刚好 都是在 s 中， 
而既 不在沖 ， 也不在 中。 请 注意， 这条法 则与算 术法则 fl-(6  +  c)  =  (fl-6)-c 是相 似的。 

(h)  差 集对并 集的分 配律： （CSU7) -i?)  E  (cs-^ucr-T?))。 两边 集合中 的元素 x， 都 不在尺 
中， 但 要么在 ^ 中， 或在 r 中， 或同在 ^ 和 7 两者 之中。 这一法 则在算 术运算 中并没 有相似 
法则， (a +  Z?)  —  c  =  (a  — c)  +  (Z) —  c) 是不 成立 的， 除非 c  =  0。 
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(i) 空集是 并集的 单位元 (identity  ): 也就 是说， (SU0) 三 又 而根据 并集的 交换律 ，有 (0U  5) 
三 S。 粗略 地讲， 只有 在元素 X 在 S 中时， 它才 可能在 SU0 中， 因为 X 不 可能在 0 中。 

请 注意， 交 集是没 有单位 元的。 可 以想象 一下， 包含 “ 所有元 素”的 “ 集合” 可 以作为 
交 集的单 位元， 因 为集合 ^ 与该 “ 集合” 的 交集肯 定是又 不过， 正 如在介 绍罗素 悖论时 
提 过的， 不可 能存在 “具有 所有元 素的集 合”。 

G) 并 集的幂 等律。 将某 运算符 应用到 同一个 值的 两个副 本上， 如果 得到的 结果还 是该值 ，就 
说该 运算 符是幕 等的。 可知有 (SUiS) 三 51。 也 就是说 ， 在 (SUiS) 中的兀 素 X， 刚好也 就是在 
中 的元素 X。 该法 则在算 术运算 中也没 有相似 法则， 因为 (训 5) 一般 情况下 不等于 a。 

(k)  交 集的幂 等律。 同 样地， 我们有 三 又 
还有 一些与 对空集 的运算 有关的 法则， 如下 所示。 

(l)  (S-5)  E  0 。 

(m) (0-5)  e0o 

(11)(005)  ^0  , 而且 根据交 集的交 换律， 有 (sn0)E0。 

7.3.4 利 用文氏 图证明 相等性 

图 7-2 用文 氏图表 示了交 集对并 集的分 配律。 该图 展示了 3 个 集合&  T^WR, 它 们将平 面分为 
8 个 区域， 分别 用数字 1 到 8 标记。 这些 区域对 应着元 素与这 3 个 集合间 8 种可能 存在的 （在 或不在 
集 合中） 关系。 


图 7-2 表示交 集对并 集分配 律的文 氏图： s  n(TUi?) 由区域 3、 5 和 6 组成， (S  H7)U 
(s  n  i?) 也是由 这些 区 域组成 

我们可 以利用 该图记 录各子 表达式 的值。 例如， rui? 是区域 3、 4、 5、 6、 7、 8。 因为 5 ■是 
区域 2、 3、 5、 6, 所以 sn(ru% 就 是区域 3、 5、 6。 同样， s nr 是区域 3、 6, 而 川尺 是区域 5、 
6。 这样 一来， esnDupni?) 是同样 的区域 3、 5、 6, 这就 证明了 

(5n(rui?))  =  ((5nr)u(5ni?)) 

一般 来说， 通过 从每个 区域考 虑一个 具有代 表性的 元素， 并验 证它要 么同在 等式两 边描述 
的集 合中， 要么都 不在这 两个集 合中， 我 们可以 证明相 等性。 这一方 法与我 们在第 12 章 中证明 
命 题逻辑 的代数 法则时 用到的 真值表 方法是 非常近 似的。 
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7.3.5 利用变 形证明 相等性 

另 一种证 明两个 表达式 相等的 方式， 是使 用我们 见过的 代数法 则将一 个表达 式变形 为另一 
个表 达式。 我们 将在第 12 章中 更为正 式地讲 解如何 处理表 达式， 现 在只要 注意到 可以进 行下列 
操作 即可。 

(1)  用 任一表 达式替 换相等 关系中 的任一 变量， 要 替换所 有在该 相等关 系中出 现的该 变量。 
相等关 系仍然 成立。 

(2)  设五是 某相等 关系中 的子表 达式， 用已 知与五 等价的 表达式 Ft 代五。 相等关 系仍然 成立。 
此外， 还可 以直接 写下任 何表述 为法则 的相等 关系， 并假 设这种 相等关 系是成 立的。 

♦ 示例 7.7 

我们要 证明相 等关系 首先使 用法则 (g)， 并 集和差 集的结 合律， 也就是 

(,s-(rui?))=  ((S-T)-R) 

我们用 51  替 换相等 关系中 岀现 的两个 r， 就得到 新的相 等关系 

根 据规则 (1)， OS-S)E0。 因此， 可以用 0 替换 上面的 ， 得到 

用 尺替代 法则㈣ 中的 5, 就有 0  -  i? 三 0 。 因此 可用 0 替换 0  - 尺 ， 从 而得到 (5*  -  (5*  U  i?)) 三 0 。 

7.3.6 子 集关系 

集合间 也有一 系列的 比较运 算符， 它们与 数字间 的比较 运算符 相似。 如果 ^ 和 待卩是 集合， 
当 s 中的 各成员 也都是 扣勺 成 员时， 就说 ssr。 我 们可以 用多种 方式表 示这种 关系：  是 r 的子 

集”、 “r 是 s 的超集 ”、 “ 饱含于 r’、 “饱含 s”。 

如果 ser， 而且 r 中至 少有 一个元 素不是 s 中的 成员， 就说 scr。 这一关 系可以 说成是 
“51  是 r 的真子 集”、 “r 是艰 J 真超 集”、 “鎮 包含于 r”、 “r 真包含 y’。 

就像 “ 小于” 关系 那样， 也 可以反 转这种 比较的 方向， 等同于 res ， 而 ssr 等 
同于： 

♦ 示例 7.8 

以下比 较关系 都是成 立的。 

(1)  {1,2}  ^  {1,2,3} 

(2)  {1,2}  C  {1,2,3} 

(3)  {1,2}  £{1,2} 

请 注意， 集合 永远是 自身的 子集， 但 从不可 能是自 身的真 子集， 所以 {1，2}  C  {1，2} 是不成 立的。 
还 有一些 涉及子 集运算 符和我 们见过 的其他 运算符 的代数 法则， 下 面列岀 了 一些。 

(0) 对任 一集合 X， 0^S 
(p) 如果 ssr， 那么 

(i)  (SUR)^T  , 

(ii)  osni?) 三 且 

(iii)  {S-T) 三  0 。 
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7.3.7 通过 证明则 包含关 系对相 等性加 以证明 

当 且仅当 ssr 且 res 时， 则有两 个集合 ^ 和抒 目等。 因为， 如果 ^ 中的 每个元 素都是 r 的 
元素， 而 且反之 亦然， 那么讶 好有着 相同的 成员， 因此 这两者 就是相 等的。 反 过来讲 ，如 
果 \和7 有着 相同的 成员， 那么 肯定有 和 都 成立。 这一 规则与 这样一 条算术 规则类 
似， 就是当 且仅当 a  <  6 和 6  <  a 都成 立时有 a  =  b 。 

通过 证明 某一集 合中的 每个元 素都包 含在另 一个集 合中， 可以 证明两 个表达 式五和 F 的相等 
性。 也就 是说， 我们 

(1)  考虑五 中的任 意元素 X， 并证明 它也在 F 中， 然后 

(2)  考虑 F 中的任 意元素 X， 并证明 它也在 五中。 

请 注意， 要 证明五 两 个方向 的证明 都是必 要的。 

♦ 示例 7.9 

现在来 证明并 集和差 集的结 合律， 

(S-(TUR))  =  ((S-T)-R) 

首 先假设 x 在左边 的表达 式中， 一系 列的步 骤如图 7-3 所示。 请 注意， 在第 (4) 和第 (5) 步中， 我们 
反向 使用了 并集的 定义。 也就 是说， ⑶告 诉我们 X 不在 rui? 中。 如果 X 在 r 中， 就是不 对的， 
所以可 以得出 JC 不在 r 中的 结论。 同样， X 不在 尺中。 


步  骤 

原  因 

1) 

jc 在 s_(ru 尺） 中 

给定 

2) 

X 在沖 

-的 定义， 以及 (1) 

3) 

x 不在； TUi? 中 

-的 定义， 以及 (1) 

4) 

X 不在沖 

U 的 定义， 以及 (3) 

5) 

X 不在肿 

u 的 定义， 以及 (3) 

6) 

x 在 51 -沖 

-的 定义， 以及 (2) 和 (4) 

7) 

x  在 (s- 中 

-的 定义， 以 及⑹和 (5) 

图 7-3 并集 和差集 的结合 律的一 半证明 


这还 没完， 我 们必须 从假设 X 在 中 开始， 并证 明它在 ^-(rui?) 中。 证明步 骤如图 7-4 
所示。 


步  骤 

原  因 

1) 

x  在 (S— 7)  -  7? 中 

给定 

2) 

x 在 s-r 中 

-的 定义， 以及 (1) 

3) 

X 不在肿 

-的 定义， 以及 (1) 

4) 

X 在夕中 

-的 定义， 以及 (2) 

5) 

X 不在沖 

-的 定义， 以及 (2) 

6) 

x 不在 TUT? 中 

u 的 定义， 以 及⑶和 (5) 

7) 

x 在 s-(ru 尺） 中 

的 定义， 以及 (4) 和 (6) 

图 7-4 并集和 差集的 结合律 的另一 半证明 
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♦ 示例 7.10 

再举个 例子， 证明 ⑼ 法 则的一 部分， 如果 那么 首 先假设 jc 在 sur 中。 
我们根 据并集 的定义 可知， 只可 能存在 下列情 况之一 
⑴ JC 在仲； 

(2)  jc 在沖 。 

在情况 ⑴中， 因为 假设有 ssr ， 所 以可知 x 在 r 中。 在情况 ⑺中， 直 接就可 以看出 x 在 r 中。 
因此， 在 任一情 况下 X 都在 r 中， 这样就 完成了 证明的 第一半 —— 命题 csur)sr。 

再 来假设 X 在 r 中。 那么 根据并 集的定 义就有 X 在 sur 中。 因此， t^(sut) , 这就 是证明 
的第 二半。 这样 就可以 得出， 如果 ser， M<^sut^t0 

7.3.8 集合 的幂集 

如果 51  是任一 集合， 那么 S 的幂 集就 是指由 ^ 的所 有子集 组成的 集合。 我 们将用 P(5) 表 示如勺 
幂集， 虽然 有时也 会使用 a5 ■这 样的表 示法。 

♦ 示例 7.11 

设 5  =  {1，2,3}。 那么 

P(5)  =  {0,{1},{2},{3},{1,2},{1,3},{2,3},{1,2,3}} 

也就 是说， PCS) 是含有 8 个 成员的 集合， 每 个成员 本身都 是一个 集合。 空 集也在 P(5) 中， 因为显 
然有 0^5。 单 元素集 —— 由 S 中的一 个元素 构成的 集合， 即 {1}、 {2}、 {3} —— 也在 P(5) 中 。同 
样， 从 3 个成员 中任 选两个 组成的 3 个 集合在 P(5) 中， 而 ^ 本身 也是 P(5) 的 成员。 

再 举一个 例子， 卩(0)={0}因为0^5, 而 除空集 之外， 没有任 何集合 可以 满足 SG0。 
请 注意， {0} 是包含 空集的 集合， 它和空 集是不 一样的 。特别 要指岀 的是， {0} 含 有一个 成员， 
也就是 0 ， 而空集 是不含 任何成 员的。 

7.3.9 幂集 的大小 

如果 贿《个 成员， 那么 P(5) 有 个 成员。 在示例 7.11 中， 我们 看到有 3 个成员 的集合 的幂集 
共有 23=8 个 成员。 此外， 2°=1, 而 且我们 看到， 包含 0 个元素 的空集 的幂集 刚好有 1 个 元素。 

设 S  fl„} ， 其中 心％ ，…, 是任意 个 元素。 现在 要通过 对《 的归纳 证明， P(5) 有 

2” 个 成员。 

依据。 如果 《  =  0, 那么辟 尤是 0。 我们 之前已 经得出 P(0) 有一个 成员的 结论。 因为 2^1， 
所以我 们证明 了依据 情况。 

归纳。 假设当 =  {apfl2 时， P(5) 有 2” 个 成员。 设 a,, +1 是一个 不同于 ^ 中 任一元 素的新 
元素， 并设 r  =  SU{a„+1} ， 该集合 是个具 有《  +  1 个元 素的 集合。 现在， r 的 子集要 么含有 a„+1 这 
一 成员， 要么不 含这一 成员。 我 们来依 次考虑 这两种 情况。 

(1)  不包含 ^+1的了 的子 集， 也是 ^ 的 子集， 因此在 PCS) 中。 而根 据归纳 假设， 正好有 2" 个这 
样的 集合。 

(2)  如果 是包含 ％+1的棚 子集， 设 0  =  i?-{a„+1}， 也就 是说， 0 是将〜 +1 删除 后的也 那么 0 
是 S 的子 集。 根 据归纳 假设， 刚好有 2” 个可 能存在 的集合 0， 而每 一个都 与唯一 的集合 i? (也就 
是 0U{a„+1} ) 对应。 
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我 们得出 r 刚好有 2x2'  也就是 2”+1 个 子集， 其中有 一半也 是劝勺 子集， 而 另一半 则是由 S 
的各子 集分别 加上新 元素〜 +1形 成的。 因此， 归纳步 骤得到 证明， 给定任 一具有 《 个元素 的集合 S 
都有 2” 个子集 的 条件， 就证明 了具有 《  + 1 个元素 的任 一集合 待卩有 2”+1 个 子集。 

7.3.10  习题 

(1)  在图 7-2 中， 我们 证明了 两个表 达式对 应着区 域集合 {3, 5, 6}。 不过， 每个区 域都可 以表示 为涉及 S、 
rrn， 以及 并集、 交 集和差 集运算 符的表 达式。 写 岀对应 以下各 区域的 两种不 同的表 达式。 

(a)  区域 6。 

(b)  区域 2 和区域 8。 

(c)  区域 2、 区域 4 和区域 8。 

(2)  使用 文氏图 证明以 下代数 法则。 对于 相等关 系中涉 及的每 个子表 达式， 指岀它 所表示 的区域 集合。 

(a) 

(b)  (S  UT)~ R)  =  ((S - R)U(T - R)) 

(c)  (S-(TUR))^((S~T)-R) 

(3)  通过 证明每 一边对 另一边 的包含 关系， 证 明习题 (2) 中的 各相等 关系。 

(4)  假设 scr， 通过证 明两边 互为另 一边的 子集， 证明如 下相等 关系： 

(a)  (SUT)  =  S 

(b)  (S-T)  =  0 

(5) * 假设没 有集合 是其他 集合的 子集， 那么包 含《 个集 合的文 氏图可 将平面 分割成 多少个 区域？ 假设 
„ 个集合 中有一 个是另 一个的 子集， 但没 有其他 的包含 关系。 那么有 些区域 就将是 空的。 例如 ，在 
图 7-1 中， 如果 SGT， 那 么区域 2 就将 为空， 因为 没有在 S 中而 不在 T 中的 元素。 一般 而言， 共有 
多少个 非空 区域？ 

(6)  证明， 如果* scr， 那么尸 ⑺。 

(7) * 在 C 语言 中， 我们可 以用元 素为链 表表头 的链表 来表示 成员为 集合的 集合又 这些 元素对 应的链 
表 都表示 ^ 的成员 之一。 编写 C 语言 程序， 接受 表示集 合的元 素构成 的表， 即 表中元 素各不 相同的 
表， 并返 回给定 集合的 幂集。 大 家编写 的程序 的运行 时间是 多少？ 提示： 利用对 “含 《 个元 素的集 
合的幂 集中有 2»个 成员” 这 一命题 的归纳 证明， 得岀创 建幂集 的递归 算法。 如 果脑筋 灵活点 ，就 
会 使用同 一个表 作为若 干集合 的相同 部分， 从而避 免复制 表示幂 集成员 的表， 这样既 能节省 时间， 
又 能节省 空间。 

(8)  证明 

(a)  P(S)UP(T)^P(SUT) 

(b) 

如果将 这里的 包含关 系替换 为相等 关系， 那 (a) 或 (b) 是否还 成立？ 

(9)  P(P(P(0))) 是 什么? 

(10)  * 如果从 0 开始， 应 用幂集 运算符 n 次， 那么得 到的集 合中有 多少个 成员？ 例如， 习题 (9) 就是 n  =  3 
的 情况。 

7.4 集 合的链 表实现 

我们 已经在 6.4 节中 看到过 如何用 链表数 据结构 实现词 典操作 插入、 删除和 查找。 同 时还看 
到， 如果 集合有 《 个元 素， 那么这 些操作 的期望 运行时 间都是 00)。 这一 运行时 间不如 5.8 节中 
使用平 衡二叉 查找树 实现词 典操作 平均为 0(1叩《)的 运行时 间那样 理想。 另一 方面， 正如在 7.6 
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copy  S  to  U; 
for  (each  x  in  T) 
if  (  !  lookup{x^  S)) 
insert  (x,  U) ; 


节中 将要看 到的， 用 来表示 词典的 散列表 数据结 构是以 词典的 链表表 示为基 础的， 而它 一般要 
比二 叉查找 树快。 

7.4.1 并集、 交集 和差集 

尽管 具体技 巧与我 们应用 在词典 操作上 的有所 不同， 但 使用链 表数据 结构还 是对诸 如并集 
这 样的基 本集合 运算有 利的。 特别 要说明 的是， 为 表排序 可以显 著改善 并集、 交 集和差 集运算 
的运行 时间。 而 我们在 6.4 节中看 到的， 排序 只能对 词典操 作的运 行时间 带来比 较小的 改善。 

首先， 看看在 用未排 序表表 示集合 时会岀 现什么 问题。 在 这种情 况下， 要对大 小分别 为《 
和 m 的集 合进行 并集、 交集 或差集 运算， 就需要  的 时间。 例如， 要 创建表 示集合 与集合 
r 的并 集的表 t/， 首先要 将表示 ^ 的表复 制到一 开始为 空表的 t/ 中。 然后对 r 中的各 个元素 加以检 
验， 看看 它们是 否也在 ^ 中。 如果 不在， 就将 该元素 添加到 t/ 中。 图 7-5 简 要描述 了这一 思路。 


图 7-5 为用 未排序 表表示 的集合 求并集 的伪代 码概要 

假设 51  含有 〃个 成员， 而 r 含有 m 个成 员。 那么第 (1) 行将 復制到 t/ 中 的操作 可以在 0 ⑻时间 
内 完成。 如 果从第 (3) 行得知 X 不在 ^ 中， 那 么只要 执行第 (4) 行 的插人 即可。 因为 x 只可以 在表示 r 
的表 中岀现 一次， 所 以可知 JC 还不在 t/ 中。 因此， 将 x 放在 表示 t/ 的表 的前端 是没问 题的， 并且第 
(4) 行 可以在 0 ⑴ 时间内 完成。 第 (2) 行至第 (4) 行的 for 循环 要迭代 m 次， 而且其 循环体 要花费 
0 ⑻的时 间。 因此， 第 (2) 行至第 (4) 行的 运行时 间就是 0(m«)， 它主 导了第 (1) 行的 0 ⑻时 间。 

还有 与之类 似的实 现交集 和差集 运算的 算法， 所花 的时间 也都是 0(m«)。 我 们在此 将这些 
算 法留给 读者来 设计。 

7.4.2 使 用已排 序表的 并集、 交集 和差集 

当 表示集 合的表 已经排 序时， 执行 并集、 交 集和差 集运算 就要快 得多。 其实， 大家会 发现, 
即便 这些表 一开始 没有排 过序， 在 执行这 些集合 运算之 前先给 表排序 都是值 得的。 例如， 考虑 
一下 sur 的 计算， 其中 ^ 和待 卩是 用已排 序表表 示的。 这一过 程就和 2.8 节的 归并算 法类似 。区 
别之一 在于， 在当 前位于 两表开 头位置 的最小 元素相 同时， 只 需要给 出该元 素的一 个副本 即可， 
而不 用像归 并那样 必须给 岀两个 副本。 另一 个区别 在于， 我们不 能从表 示用来 求并集 的集合 s 
和 r 的表 中直 接删除 元素， 因为不 应该在 构建辟 nr 的并 集时对 造成 破坏。 我 们必须 为所有 
元 素创建 副本， 用 以形成 二者的 并集。 

假 设类型 LIST 和 CELL 是 像之前 那样， 通过宏 

DefCelKint,  CELL,  LIST); 

定 义的。 函数 setUnion 如图 7-6 所示。 在第 (1) 行要 利用辅 助函数 assemble(x,  L,  M) 创建一 
个新 单元， 在第 ⑺ 行 将元素 X 放人该 单元， 并在第 (3) 行调用 setUnion 求表 Z 和 M 的并 集。 然后， 
assemble 会返 回对应 x 的单 元， 后面 跟着对 Z 和 M 应用 setUnion 后得到 的表。 请 注意， 
ass emb le 和 setUnion 这 两个函 数是相 互递 归的， 每一个 都会调 用另 一个。 

函数 setUni on 会从两 个给定 的已 排序表 中选出 最小的 元素， 并 将选定 的元 素与两 个表其 
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LIST  setUnionCLIST  L,  LIST  M) ; 

LIST  assemble (int  x，  LIST  L,  LIST  M) ; 

/* 由 assemble 函 数生成 的表， 其表头 元素为 x 且 
尾 部为表 L 和表 M 并集 中所 含元素 V 

LIST  assemble (int  x,  LIST  L,  LIST  M) 

{ 

LIST  first; 

first  =  (LIST)  malloc (sizeof (struct  CELL)); 
first -〉 element  =  x; 
first->next  =  setUnion(L,  M) ; 
return  first ; 

> 

/ *  setUnion 返回 的表是 L 和 M 的并集 */ 

LIST  setUnionCLIST  L,  LIST  M) 

if  (L  ==  NULL  &&  M  ==  NULL) 
return  NULL; 

else  if  (L  ==  NULL)  /*  M  在这里 不能为  NULL  */ 

return  assemble (M->element ,  NULL,  M->next) ; 
else  if  (M  ==  NULL)  /*  L  在这里 不能为  NULL  * / 

return  assemble (L->element ,  L->next ，  NULL) ; 

/* 如 果到了 这里， L 和 M 都不 能为 NULL  */ 
else  if  (L -〉 element  ==  M->element) 

return  assemble (L->element ,  L->next ,  M->next) ; 
else  if  (L->element  <  M->element) 

return  assemble (L -〉 element,  L->next ,  M) ; 
else  /*  这里有  M->element  <  L->element  */ 
return  assemble (M->element ,  L,  M -〉 next) ; 


余的 部分一 起传给 assemble。 对 setUnion 来说有 6 种 情况， 具体 取决于 两个表 中有没 有一个 
为 NULL, 如果 没有， 就要 看两个 表中哪 个表表 头位置 的元素 先于另 一个。 

(1)  如 果两个 表都为 NULL,  setUnion 就直 接返回 NULL, 结束 递归过 程。 这 种情况 就是图 
7-6 中的第 (5) 行和第 (6) 行。 

(2)  如果 Z 为 NULL 而 M 不是， 那么 在第⑺ 行和第 ⑻行， 通过从 M 中取出 第一个 元素， 后面跟 
上 NULL 表与 M 尾部的 “并 集”， 就组成 了这两 个表的 并集。 请 注意， 在 这种情 况下， 对 setUnion 
的 成功调 用会使 M  被复制 下来。 

(3)  如果 M 为 NULL 而 Z 不是， 那 么在第 (9) 行和第 (10) 行， 要完 成的工 作是相 反的， 用 1 的第 
一个 元素合 Z 的尾 部组成 答案。 

(4)  如果 Z 和 M 的第 一个元 素是相 同的， 那 么在第 (11) 行和第 (12) 行， 就 创建该 元素的 一个副 
本， 表示为 L->element， 加上 L 的 尾部和 M 的 尾部， 一 起构成 答案。 

(5)  如果 Z 的第 一个元 素先于 M， 么在第 (13) 行和第 (14) 行， 我 们会用 该最小 元素， 1 的尾 
部， 以及 整个表 M  — 起组成 答案。 

(6)  对 称地， 在第 (15) 行和第 (16) 行， 如 果最小 元素在 M 中， 我们 就用该 元素、 整个表 I， 以 
及 M 的尾 部组成 答案。 


Qv  ^ 


. - -  \ — /.  \ /  \ — /  \ /  \ - /  - - -  \ /  \ — /  \ /  . - -  \ — / 

5  6  7  8  9  0  12  3  4  5  6 
/IV  /V  /IV  /I  / — ^  1  111111 


} 


图 7-6 为用已 排序表 表示的 集合计 算并集 
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♦ 示例 7.12 

假设 集合提 {1,3,6} ， r 是 {5, 3}。 表示这 两个集 合的已 排序表 分别是 1  =  (1, 3,6) 和 M  =  (3,5) 。 
调用 setUnion  (L,M) 求 并集。 因为 Z 的第 一个 元素是 1 , 先于 M 的第一 个元素 3 ， 所 以情况 (5) 适 
用， 因此 我们用 1， Z 的 尾部， 称其为 4=(3, 6)， 以及 M 组成要 计算的 并集。 函数 assemble  (1,L,M) 
会在第 (3) 行调用 setUnion  (L,M) ， 结果就 是第一 个元素 1 与 等于并 集的尾 部组成 的表。 

对 setUnion 的这 一调用 是情况 (4)， 也就是 两个开 头元素 相等的 情况， 这 里都是 3。 因此， 
我们 用元素 3 的一个 副本， 加上 心的 尾部和 M 的尾 部， 组成要 计算的 并集。 这些尾 部分别 是只有 
元素 6 组成的 12， 以及只 由元素 5 组成的 M!。 接 下来的 调用是 setUnion ， 这是情 况⑹的 
实例。 因此 我们将 5 加到并 集中， 并调用 setUnion  (L2,  NULL)。 这 是情况 (3)， 为并 集生成 6, 并 
调用 setUnion  (NULL, NULL) 。 这里 就遇到 了情况 ⑴， 递 归就终 止了。 对 setUnion 首次 调用的 
结果 就是表 (1,3, 5, 6)。 图 7-7 详细展 示了这 一套示 例数据 产生的 调用与 返回。 

调用  setUnion  ((1,3,  6),  (3,5)) 

调用  assemble  (1， （3,  6)， （3,  5)) 

调用  setUnion  ((3,  6),  (3,  5)) 

调用  assemble  (3, （6)， （5)) 

调用  setUnion  ((6)， (5)) 

调用  assemble  (5,  (6),  NULL) 

调用  setUnion  ((6),  NULL) 

调用  assemble  (6,  NULL,  NULL) 

调用  setUnion  (NULL,  NULL) 

返回 NULL 
返回 （6) 

返回⑹ 

返回 (5,6) 

返回 (5,6) 

返回 (3,5,6) 

返回 (3,5,6) 

返回 (1,3, 5, 6) 

返回 (1,3, 5, 6) 

图 7-7 示例 7. 12 对 应的调 用合返 回序列 

请 注意， setUnion 生成 的表总 是已排 序的。 通过 看到哪 种情况 适用， 可以 知道该 算法为 
何起 作用， 表 I 或 M 中的各 元素， 要 么通过 成为对 assemble 调 用中的 第一个 参数， 从而 被复制 
到输 岀中， 要 么留在 作为参 数被传 递给对 setUnion 的递归 调用的 表中。 

7.4.3 并集运 算的运 行时间 

如果对 分别具 有《 个和 w 个元 素的集 合调用 setUnion, 那么 setUnion 所 花的时 间就是 
(9(m  +  «) 。 想 明白为 什么， 要注 意到对 assemble 的调 用会花 (9(1) 的时间 为输出 表创建 一个单 
元， 然后对 剩下的 表调用 setUnion。 因此， 图 7-6 中对 assemble 的 调用， 可以视 为要花 (9 ⑴的 
时间， 再 加上对 长度之 和为比 Z 和 M 长度 之和少 1， 或 在情况 (4) 下比 Z 和 M 长度 之和少 2 的 两个表 
调用 setUnion 所花的 时间。 此 夕卜， setUnion 中 的所有 工作， 除了对 assemble 的 调用之 夕卜， 
所花时 间都是 0(1)。 
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多 变量函 数的大 0 

正如在 6.9 节 中指 出的， 我们为 单变量 函数定 义的大 0 概念自 然也可 以 应用于 多变量 函数。 
如果存 在常数 〔和屮 、…、 办， 使得对 /=1、 …、 灸， 只要 X,. 彡 a;.， 就有 /(X ，…, xj  <  ，…, xj ， 

就说 /(a ，…, 是 ，…, 〜)） 。 特 别要说 的是， 虽然当 爪和《 其中 一个为 0 而另 一 个大于 0 时 
会有 w.+« 大于 m«, 但 通过选 择常数 c、 《!和《2 都等于 1, 仍然 可以说 爪+«是(9(爪《) 。 


接 下来， 在总 长度为 w+« 的两个 表调用 setUnion, 这最多 会造成 w.+Wj)0^setUnion 的递 
归 调用， 以及 同样次 数的对 assemble 的 调用。 除去 递归调 用花的 时间， 每次调 用所花 的时间 
为 0(1)。 因此， 求并集 所花的 时间为 0(m  +  «) ， 也就 是说， 与两 个集合 的大小 之和成 比例。 

这一时 间比为 用未排 序表表 示的集 合求并 集所需 的时间 0(m«) 要少。 其实， 如果表 示集合 
的表 是未排 序的， 可以在 (9(«log«  +  mlogm) 的时间 内为这 两个表 排序， 接 着再对 已排序 的表求 
并集。 因为 《log« 主导了 《， 而 mlogm 主导了 m， 所以 可以将 排序与 求并集 的总时 间支岀 表示为 
(9(>log«  +  mlogm) 。 这一 表达式 可能比 (9(m«) 大， 但只要 《与爪 的值很 接近， 也就 是说， 只要两 
个集 合的大 小近似 相同， 它就比 0(m«) 小。 因此， 在求并 集之前 先排序 是说得 通的。 

7.4.4 交集 和差集 

图 7-6 概述了 求并集 的算法 思路， 这一思 路也适 用于求 交集和 差集的 运算： 当 集合用 已排序 
表表 示时， 交集 和差集 运算也 能以线 性时间 执行。 对交集 而言， 只 有当元 素同时 出现在 两个集 
合中， 也就是 像之前 的情况 (4) 那 样时， 才会把 元素复 制到输 出中。 如 果有一 个表为 NULL， 在交 
集中就 不会有 任何元 素了， 因 此情况 ⑴、 （2)、 （3) 就可 以被 替换 为返回 NULL 的 操作。 在情况 (4) 
中， 我们将 两个表 表头的 元素复 制到交 集中。 而 在情况 (5) 和情况 ⑹中， 两 个表的 表头元 素是不 
同的， 这样 较小的 元素就 不可能 都出现 在两个 表中， 因 此就不 用向交 集中添 加任何 内容， 而是 
要 将较小 的元素 从其所 在表中 弹岀， 并 对剩下 部分求 交集。 

想知 道为什 么这样 能行， 可 以举个 例子， 假设 是在表 Z 的 表头， 纟 是在表 M 的表 头， 并且有 
a<6。 那么 a 就不 可能岀 现在已 排序表 M 中， 因此可 以排除 a 同时 岀现 在两个 表中的 可能。 不过， 
办 可能出 现在表 Z 中在 a 之后 的某个 位置， 这样 一来就 仍然有 可能用 到来自 M 的心 因此， 我们需 
要 继续对 Z 的 尾部与 整个表 M 求交 集。 相反， 如果 纟小于 a， 就要对 整个表 Z 与 M 的 尾部求 交集。 
计算 交集的 C 语言代 码如图 7-8 所示。 还需 要修改 assemble, 用对 intersect  ion 的调 用替代 
对 setUnion 的 调用。 我们将 这一修 改以及 为已排 序表求 差集的 程序留 作本节 习题。 


LIST  intersection(LIST  L,  LIST  M) 

{ 

if  (L  ==  NULL  I  I  M  ==  NULL) 
return  NULL; 

else  if  (L->element  ==  M->element) 

return  assemble (L->element，  L->next ,  M->next) ; 
else  if  (L->element  <  M->element) 
return  intersection(L->next ,  M) ; 
else  /*  这里有  M->element  <  L->element  */ 
return  intersect ion (L,  M->next) ; 


图 7-8 为 用已排 序表表 示的集 合计算 交集， 这里 需要新 版本的 assemble 函数 
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7.4.5  习题 

(1)  编写 C 语言 程序， 为用未 排序表 表示的 集合求 (a) 并集； （b) 交集； （c) 差集。 

(2)  修改图 7-6 中的 程序， 使其 为用已 排序表 表示的 集合求 (a) 交集； （b) 差集。 

(3)  图 7-6 中的 assemble 和 setUnion 函数 不会改 变原来 的表， 也就 是说， 它们 会创建 元素的 副本， 
而 非使用 给定表 本身的 单元。 大家 能否通 过在求 并集的 过程中 销毁给 定的表 来简化 程序？ 

(4)  * 通过 对作为 参数给 定的两 个表的 长度之 和进行 归纳， 证明图 7-6 中的 setUnion 函 数会返 回给定 
表的 并集。 

卩:^两个集合^和了的对称差是以-乃口⑺-幻， 也就 是说， 刚好只 岀现在 其 中一个 之中的 元素。 
编 写程序 ，为用 已排序 表表示 的两个 集合求 对称差 。大 家的 程序应 该像图 7-6 中 那样只 传递一 次表， 
而 不要调 用求并 集与求 差集的 程序。 

(6)  * 我 们对图 7-6 中的 程序进 行了非 正式的 分析， 论 证了如 果两个 表的总 长度为 n， 就会有 0(n) 次对 
setUnion 和 assemble 的 调用， 而且 每次调 用花的 时间是 0(1) 加上递 归调用 所花的 时间。 我们 
可 以将这 一论证 过程正 式化， 设 是 setUnion 对总长 度为? 7 的 两个表 的运行 时间， 7^(n) 是 
assemble 对总 长度为 n 的两个 表的运 行时间 。分另 I] 写岀 仏 与 G 相互以 对方定 义自身 的递归 规则。 
进行 替换， 消去 &， 为仏建 立常规 的递推 关系。 为该递 推关系 求解。 这是否 证明了 setUnion 
所花 时间为 0(«)? 

7.5 集合的 特征向 量实现 

很多 时候， 我 们遇到 的一些 集合是 要称为 “ 全集”  ® 的某个 小集合 的各 子集。 例如， 扑克 
牌 型就是 由全部 52 张 扑克牌 组成的 集合的 子集。 当我 们关注 的集合 是某个 小集合 t/ 的各子 集时， 
存在 一种比 7.4 节中讨 论的 表实现 有效得 多的集 合实现 方式。 我们 以某种 方式为 t/ 中的元 素排定 
次序， 这样 一来， t/ 中的每 个元素 都可以 与一个 唯一的 “ 位置” 相 关联， 这一位 置是从 0 到 《-1 
的 整数， 其中 《 是 t/ 中 元素的 个数。 

接着， 给 定一个 包含于 的集合 A 就可 以用由 0 和 1 组成的 特征向 量表示 & 其规 则是， 对 t/ 
中的每 个元素 X， 如果 jc 在 ^ 中， 对应 x 的位置 上就是 1， 而如果 jc 不在 ^ 中， 对应 的位置 上就是 0。 

♦ 示例 7.13 

设 t/ 是一副 扑克牌 组成的 集合。 我们可 以用任 何方式 为扑克 牌排定 次序， 不 过比较 合理的 
模式是 先按照 它们的 花色： 梅花、 方块、 红桃和 黑桃。 然后， 在 同一花 色中， 按照 A、 2、 3、 …、 
10、 J、 Q、 K 这样 的顺序 排列。 例如， 梅花 A 的位 置就是 0, 梅花 K 的位 置是 12, 方块 A 的位 置是 
13, 而黑桃 J 的位 置是 49。 红桃同 花大顺 （即 红桃 10、 J、 Q、 K、 A  ) 是由 以下特 征向量 表示的 
00000000000000000000000000 1 00000000 1 1 110000000000000 
第一个 1 在位置 26 处， 表 示红桃 A， 而其他 4 个 1 则是在 35 到 38 这 4 个 位置， 它们 分别表 示红桃 10、 
J、 Q 和 K。 

所有梅 花花色 的牌组 成的集 合是由 以下特 征向量 表示的 

1111111111111 000000000000000000000000000000000000000 
而所 有花牌 （ 即各 花色的 J、 Q、 K) 组成 的集合 则是由 以下特 征向量 表示的 
0000000000111 0000000000111 0000000000111 0000000000111 


① 当然， t/ 不 可能是 真正的 全集， 我 们用罗 素悖论 论证过 这种所 有集合 的集合 是不存 在的。 
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7.5.1 集 合的数 组实现 

要表示 某《元 素全集 各子集 的特征 向量， 可 以使用 具有如 下类型 的布尔 数组： 

typedef  BOOLEAN  USET [n] : 

我们在 1.6 节中 描述过 BOOLEAN 类型。 要将对 应位置 / 的元素 插入到 声明为 USET 类型 的集合 S 中， 
只需 要执行 


S[i]  =  TRUE; 

同样， 要从 ^ 中删 除对应 位置啲 元素， 就要 

S[i]  =  FALSE; 

如果要 查找该 元素， 只需 返回值 耶] 即可， 该值 就告诉 了我们 第汁元 素是否 岀现在 S 中。 

请 注意， 当集合 用特征 向量表 示时， 词 典操作 插入、 删 除和查 找各需 0(1) 的 时间。 这一技 
巧的 唯一缺 点是， 所 有被表 示的集 合都必 须是某 个全集 t/ 的 子集。 此外， 该 全集必 须很小 ，否 
则， 数组就 会变得 很大， 要存 储数组 就不方 便了。 事 实上， 因为我 们通常 一定要 将表示 集合的 
数组 中所有 元素初 始化为 TRUE 或 FALSE, 而 初始化 t/ 的任 一子集 （ 即便是 0  ) 所 花的时 间都肯 
定与 的 大小成 比例。 如果 t/ 中有 大量的 元素， 那么初 始化集 合所花 的时间 可能会 主导所 有其他 
操作的 开销。 

如果两 个集合 同为某 《元 素普通 全集的 子集， 它们分 别由特 征向量 S 和 7 表示， 要构成 这两个 
集合的 并集， 可以定 义另一 个特 征向量 及 来 表示特 征向量 s 和 r 的按位 OR: 

对 0 彡 /彡《， R[i]  =  S[i]  I  I  T[i] 

同样， 要 ibR 表示 S 和 扣勺 交集， 就只 要对辟 H7 猶 特征向 量按位 AND: 

对 0 彡  z ■彡/ 7， R[i]  =  S[i]  &&  T[i] 

最后， 可以 按照如 下方式 让尺 表示 ^和了 的差集 s-r: 

对 0 彡  z •彡 《， R[i]  =  S[i]  &&  !T  [i] 

如果恰 当地定 义类型 BOOLEAN， 表示 特征向 量的数 组及对 这些数 组执行 的布尔 运算都 可以用 C 
语言中 的按位 运算符 实现。 不过， 这 些代码 都是与 机器相 关的， 所以 在这里 不会展 示任何 细节。 
特征 向量有 一种可 移植但 更耗费 空间的 实现， 可以 用合适 大小的 int 类 型数组 实现， 而 这是一 
种 我们假 设过的 BOOLEAN 类型的 定义。 

♦ 示例 7.14 

考虑一 下苹果 品种的 集合。 这 里的全 集由图 7-9 所示的 6 个品种 构成， 其排列 次序表 示了它 
们 在特征 向 量中的 位置。 


品  种 

颜  色 

成熟期 

0) 

美味 （ Delicious  ) 

红 

晚熟 

1) 

格兰尼 • 史密斯 （ Granny  Smith  ) 

绿 

早熟 

2) 

格拉文 施泰因 （ Gravenstein  ) 

红 

早熟 

3) 

乔纳森 （ Jonathan ) 

红 

早熟 

4) 

旭苹果 （ McIntosh ) 

红 

晚熟 

5) 

翠玉苹 果 （ Pippin  ) 

绿 

晚熟 

图 7_9 某些苹 果品种 的特征 


红苹果 的集合 是由特 征向量 
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偏 =  01110 

表 示的， 而早 熟苹果 的集合 是由特 征向量 

Early  =  011100 

表 示的。 因此， 由红 色或早 熟的苹 果品种 构成的 集合， 即 吻 ， 是由特 征向量 111110 
表示 的 。请 注意 ，这 一 • 向量为 1 的 位置， 是表示 的 特征 向量 101110 中为 1 的 位置， 或 是表示 Ear/j 
的特 征向量 01 1100 中为 1 的 位置， 或 是两者 中都为 1 的 位置。 

通过在 101110 和 011100 都为 1 的位 置放置 1， 可以得 到表示 (早 熟红 苹果的 集合） 
的特征 向量。 得到的 向量是 001 100， 表示苹 果品种 的集合 {格拉 文施泰 因 • 乔纳 森}。 而 晚熟红 
苹果的 集合， 也就是 

Red  -  Early 

可以 用向量 100010 表示。 该集合 为{ 美味， 旭苹果 }。 

请 注意， 使 用特征 变量求 并集、 交 集和差 集所花 的时间 与向量 的长度 是成正 比的。 这一长 
度与 待运算 集合的 大小没 有直接 关系， 而 是等于 所选择 全集的 大小。 如果 待运算 集合占 据全集 
中相当 可观的 一部分 元素， 那么求 并集、 交集和 差集的 时间也 和待运 算集合 的大小 成比例 。这 
一时 间要优 于已排 序表的 (90 log«) 时间， 且 大大优 于未排 序表的 (902) 时间。 不过， 特 征向量 
也有个 缺点， 假 如所涉 及集合 的大小 远小于 全集的 大小， 这 些运算 的运行 时间就 要远大 于所涉 
及 集合的 大小。 

7.5.2  习题 

(1)  给岀如 下扑克 牌集合 的特征 向量。 为 了方便 起见， 大家可 以使用 y 表示 个 连续的 0, 用 I4 表示 A： 个连 
续的 1。 

⑻ 皮诺奇 勒牌堆 （使用 4 种 花色的 9、 10、 J、 Q、 K 和 A 各两 张） 中的扑 克牌。 

(b)  红色扑 克牌。 

(c)  红桃 J、 黑桃 J 和红桃 K。 

(2)  使用 按位运 算符， 编写 C 语言 程序计 算两个 扑克牌 集合的 (a) 并集； （b) 差集， 其中第 一个集 合是用 
单词 a  1 和 表示 的， 而第二 个集合 则是由 W 和 62 表 示的。 

(3)  * 假设要 表示元 素包含 于某小 型全集 的无序 单位组 （ 多重 集）。 该如 何将特 征向量 法推广 到无序 
单位 组的表 示呢？ 说明要 如何对 这样表 示的无 序单位 组执行 (a) 插入， （b) 删除； （c) 查找 操作。 请注 
意， 无序 单位组 的 /oo 如〆 x) 返回 的是 x 在无 序单位 组中出 现的 次数。 

7.6 散列 

在 可以使 用词典 的特征 向量表 示时， 我 们可以 直接访 问表示 元素的 位置， 也 就是访 问数组 
中以 该元素 的值为 下标的 位置。 不过， 正如前 面提到 过的， 不能 让全集 的大小 太大， 否 则数组 
长度 就会超 出计算 机可用 内存的 容纳能 力了。 就算计 算机内 存能容 纳这个 数组， 初始化 数组所 
需的时 间也太 长了。 例如， 假 设要存 储真正 的英文 词典， 并假设 我们愿 意忽略 10 个字母 以上的 
单词。 仍会有 261()+269+口+26 个可能 存在的 单词， 这大约 是超过 1014 个 单词， 每个 可能的 单词都 
需 要数组 的一个 位置。 

不过， 不 管什么 时候， 英语语 言中一 般只有 100 万个 单词， 所以 之前所 说的数 组中只 有一亿 
分之 一的数 据项为 TRUE。 我们也 许可以 缩减该 书组， 使 得很多 可能存 在的单 词共享 一个数 据项。 
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例如， 假设 指定头 100 万个 单词存 放在数 组的第 一个单 元中， 而接 下来的 100 万个 可能存 在的单 
词存 放在第 二个单 元中， 以此 类推， 直到第 100 万个 单元。 这 种安排 有两个 问题。 

(1)  在 单元中 只放人 TRUE 已经不 够了， 因为我 们没法 知道这 100 万个可 能的单 词中到 底有哪 
些 实际岀 现在词 典中， 也 不知道 任意一 组中是 否有多 个单词 岀现。 

(2)  比 方说， 如果头 100 万个 可能的 单词包 含了所 有的短 单词， 就可以 预期有 超过平 均数的 
词 典内单 词落入 这一组 可能存 在的单 词中。 要注 意到， 我们 的安排 是数组 单元数 要和词 典中的 
单词数 相当， 这样就 可以预 期平均 每个单 元要表 示一个 单词， 但英 语中肯 定有好 几千个 单词是 
在 第一组 中的， 这样 就包含 了所有 不超过 5 个 字母的 单词， 以 及部分 6 个 字母的 单词。 

要解 决问题 (1)， 就需 要在数 组的每 个单元 中列岀 该组中 岀现在 词典里 的所有 单词。 也就是 
说， 该数 组单元 成了容 纳这些 单词的 链表的 表头。 要解 决问题 (2)， 需要注 意如何 为潜在 的单词 
分组。 一定 要合理 分配各 组中的 元素， 使得 不大可 能出现 （虽 然从 不会不 岀现） 某一组 中有很 
多 元素的 情况， 虽然 这种情 况不太 可能不 出现。 请 注意， 如 果在一 组中有 大量的 元素， 而且我 
们 又用链 表来表 示组， 那么在 成员众 多的组 中查找 元素就 会非常 缓慢。 

7.6.1 散 列表数 据结构 

我们现 在已经 从特征 向量这 种使用 范围有 限但很 有价值 的数据 结构， 演变到 了对任 意词典 
都很有 用而且 对很多 其他用 户来说 也很实 用的散 列表数 据结构 。® 散 列表的 词典操 作速度 平均可 
达 0(1) 的 水平， 而且与 构建词 典所用 全集大 小没有 关系。 图 7-10 中展 示了散 列表的 图片， 不过， 
我们 只给出 了  X 所在的 那一组 对应的 链表。 


headers 


x 


h 


0 

1 


-►  h{x) 


B  -1 


图 7-10 散列表 

散列 函数接 受元素 JC 作为 参数， 并生成 0 到 5-1 之间的 某个整 数值， 其中 5 是 散列表 中散列 
表元 （bucket) 的 数量。 值 Mx) 就是 我们放 置元素 X 的散列 表元的 位置。 因此， 这些散 列表元 
与我 们之前 非正式 讨论中 谈论过 的单词 “组” 是对 应的， 而散列 函数是 用来决 定某个 给定元 


① 虽然有 的情况 下用特 征向量 也是可 行的， 但我 们通常 还是会 优先选 择用散 列表来 表示。 
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素应 该属于 哪 个散列 表 元的。 

使用 何种散 列函数 更合适 取决于 元素的 类型。 例如 

(1)  如果 元素是 整数， 就 可以令 力⑻ 为 x%5, 也就是 X 除以 5 的 余数。 这 一数字 总是在 所要求 
的 0 到 S-1 这一范 围内。 

(2)  如果元 素是字 符串， 就可以 取元素 x  =  ， 其 中每个 a, 都 是一个 字符， 并计算 

y  =  a{  +a2+  '"+ak  , 因为在 C 语言中 char 类型 是个小 整数。 这样， 我们就 得到与 字符串 x 中所有 
字符等 价的整 数的和 如果用 y 除以 并取 余数， 就得 到了在 0 到 6-1 这一范 围内的 散列表 
元号。 

重点在 于散列 函数会 “混 杂” 该 元素。 也就 是说， A 会混 杂元素 要落入 的散列 表元， 这样 一来这 
些元素 大约就 是会平 均落入 所有的 散列表 元中。 即便元 素本身 相当有 规律， 比如 是连续 整数， 
或者 只有一 个位置 不同的 连续字 符串， 这 种公平 分配也 一定会 发生。 

每个散 列表元 都是由 链表组 成的， 该链表 存储着 散列函 数发送 给该散 列表元 的集合 中的所 
有元素 。 要找 到元素 X， 就要计 算/^ )， 得到 散列表 元号。 如果 X 在， 它肯 定就在 啦) 对应 的散列 
表 元中， 这样 我们可 以沿着 该散列 表元对 应的链 表查找 X。 实 际上， 散列表 让我们 使用了 较慢的 
集 合的表 实现， 不过， 通 过将集 合分为 5 个散列 表元， 让我 们在查 找表时 平均只 需要查 找整个 
集合的 1/5。 如果让 5 差 不多和 集合的 大小一 样大， 那 么平均 每个散 列表元 中就只 有一个 元素， 
这样 查找元 素平均 只需要 0(1) 的时 间了， 就 像在集 合的特 征向量 表示中 那样。 

♦ 示例 7.15 

假设 我们要 存储某 字符串 集合， 每 个字符 串都以 空字符 结尾， 而且最 多只含 32 个字符 。我 
们 要使用 上述第 (2) 条 中提到 的散列 函数， 其中 5=5, 也就 是说， 是有 5 个散列 表元的 散列表 。要 
计算 每个元 素的散 列值， 就要 求岀每 个字符 串中直 到空字 符为止 （但不 包括空 字符） 各 字符的 
整数值 之和。 以下 定义给 了我们 想要的 类型。 

(1)  #define  B  5 

(2)  typedef  char  ETYPE [32] ; 

(3)  Def Cell (ETYPE,  CELL,  LIST); 

(4)  typedef  LIST  HASHTABLE  [B] ; 

第 (1) 行定 义了表 示散列 表元数 量5 的常量 5。 第 (2) 行 定义的 ETYPE 类型是 可容纳 32 个 字符的 
数组。 第 (3) 行 是常见 的链表 及链表 单元的 定义， 只不过 这里的 元素是 ETYPE 类 型的， 也就是 32 
字符的 数组。 第 (4) 行将散 列表定 义为由 5 个链表 组成的 数组。 如果接 着定义 

HASHTABLE  headers; 

headers 数组有 着包含 散列表 元头部 的合适 类型。 


int  h( ETYPE  x) 
int  i ,  sum; 
sum  =  0; 

for  (i  =  0;  x[i]  !=  *  \0 '  ;  i++) 
sum  +=  x[i] ; 
return  sum  %  B; 


图 7-11 假设 ETYPE 是字符 数组， 为 与字符 等价的 整数求 和的散 列函数 
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现 在必须 定义散 列函数 A。 该函 数的代 码如图 7-11 所示。 与 字符串 X 中 各字符 等价的 整数会 
在变量 sum 中 求和。 最后 一步会 计算这 个和除 以散列 表元数 5 得到的 余数， 并将其 作为散 列函数 
A 的值 返回。 

下面拿 一些单 词作为 例子， 并 考虑散 列函数 A 安放这 些单词 的散列 表元。 要在 散列表 中输入 
7 个单词 ® 


anyone  lived  in  a  pretty  how  town 

要计算 h(any0ne)， 就需要 搞清楚 字符表 示的整 数值。 在常用 于表示 字符的 ASCII 码中， 小写字 
母 对应的 整数值 从表示 a 的 97( 二 进制的 1100001  ) 开始， 到表示 b 的 98, 等等， 直 到表示 z 的 122。 
而大写 字母对 应的整 数要比 相应小 写字母 对应的 整数小 32, 也就是 从表示 A 的 65  (二 进制的 

1000001  ) 到表示 Z 的 90。 

因此， 与 anyone 中的字 符对应 的整数 分别是 97、 110、 121、 111、 110、 101。 它们 的和是 
650。 将这个 和除以 5， 也就是 5， 得到 余数为 0。 因此， anyone 属于散 列表元 0。 通过图 7-11 中 
的散列 函数， 就可 以将本 例中的 7 个单 词分配 到如图 7-12 所示的 散列表 元中。 


单  词 

和 

散 列表元 

anyone 

650 

0 

lived 

532 

2 

in 

215 

0 

a 

97 

2 

pretty 

680 

0 

how 

334 

4 

town 

456 

1 

图 7-12 各个 单词、 它们 的值和 它们所 在的散 列表元 


我 们看到 7 个单 词中有 3 个被 分配到 编号为 0 的 散列表 元中， 有 两个被 分配到 2 号 散列表 元中， 
而 1 号和 4 号中各 有一个 单词。 这与 一般情 况相比 不那么 平均， 不过 对少量 的单词 和散列 表元来 
说， 我 们应该 能预见 这种不 规则的 情况。 随着 单词数 变多， 这些 单词在 5 个 散列表 元中的 分布就 
会 近似平 均了。 插 人了这 7 个单 词之后 的散列 表如图 7-13 所示。 


headers 


0 

1 

2 

3 

4 


图 7-13 存放 7 个 元素的 散列表 


① 这些单 词来自 E.E.Cummings 的 一首同 名诗， 该 诗的下 一句是 “with  up  so  floating  many  bells  down” 。 


#include  〈string. h> 

void  bucket Insert (ETYPE  x,  LIST  *pL) 

{ 

if  ((*pL)  ==  NULL)  { 

(*pL)  =  (LIST)  malloc(sizeof (struct  CELL)); 
strcpy ( (*pL) - >element ,  x) ; 

(*pL)->next  =  NULL; 

} 

else  if  (strcmp (  (*pL) ->element ,  x)  )  /*  x  和  element 

是不同 的 */ 

bucket Insert (x ,  & ((*pL)->next)) ; 

} 

void  insert (ETYPE  x,  HASHTABLE  H) 

{ 

bucket Insert (x ,  &(H[h(x)])); 

} 


7.6.2 词 典操作 的散列 表实现 

要在用 散列表 表示的 词典中 插人、 删 除或查 找元素 X， 要经历 简单的 3 步 过程。 

(1)  计 算合适 的散列 表元， 也就是 的0。 

(2)  利 用由表 头指针 组成的 数组， 找到与 标记为 A(jc) 的散列 表元对 应的存 储元素 的表。 

(3)  对该 表执行 操作， 就像 该表表 示了整 个集合 一样。 

针对这 里的元 素是字 符串而 6.4 中的元 素是整 数这一 事实， 对 6.4 节 中的算 法经过 恰当的 修改之 
后， 该算 法可以 用于这 里的表 操作。 举例 来讲， 我 们在图 7-14 中展 示了向 散列表 插入元 素的完 
整函数 。 大家 可以自 行开发 delete 和 lookup 函 数作为 练习。 


图 7-14 向散列 表中插 人元素 

要 理解图 7-14， 可 以注意 到函数 bucketlnsert 与图 6-5 中 的函数 insert 是相 似的。 在第 
(1) 行， 我 们进行 测试， 看看是 否已到 达表的 末端。 如 果是， 就在第 (2) 行创建 一个新 单元。 不过， 
在第 (3) 行， 我 们不再 是把整 数存储 到新创 建的单 元中， 而是利 用标准 头文件 string. h 里的 
strcpy 函数将 字符串 jc 复制到 该单元 的元素 字段。 

还有， 在第 (5) 行， 我们 会使用 string. h 中的 s t r cmp 函 数测试 是否尚 未在 该表中 找到 X。 
当 且仅当 JC 和当前 单元的 元素相 等时， 该函数 会返回 0。 因此， 只要这 一比较 的值非 0, 也 就是只 
要 当前元 素不是 X， 我们就 会沿着 表继续 向下。 

这里的 insert 函数只 有一行 代码， 在 这行代 码中， 当 我们找 到对应 适当散 列表元 咖) 头部 
的数 组元素 之后， 就 会调用 bucketlnsert。 我们假 设该散 列函数 A 是在 其他 位置定 义的。 还 
要 记得， 类型 HASHTABLE 意味着 H 是指 向各 单元指 针组成 的数组 （即 链表数 组）。 

♦ 示例 7.16 

假 设我们 要从图 7-13 所示 的散列 表中删 除元素 in， 而使 用的散 列函数 是示例 7.15 描 述的。 
删 除操作 的执行 方式从 根本上 讲与图 7-14 中的 insert 函 数是类 似的。 我们 会计算 /^in)， 其值 
为 0。 因此我 们前往 0 号散 列表元 对应的 表头。 该散列 表元对 应的表 中第二 个单元 存放着 in, 要 
删除该 单元。 具体的 C 语言 程序留 作本节 习题。 
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12  3  4  5  6 

/ - V  / - \  / V  / - V  / - 、  / - \ 
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7.6.3 散 列表操 作的运 行时间 

正如我 们通过 检视图 7-14 可以 了解的 ，假 设计算 /?(x) 所花 的时间 是个与 存储在 散列表 中的元 
素数量 无关的 常量， ® 函数 insert 找 到适当 散列表 元头部 所需的 时间是 0(1)。 在 这个常 数的基 
础 之上， 还必 须加上 平均为 5) 的附加 时间， 其中 《 是散 列表中 的元素 数量， 而 5 则 是散列 
表元的 数量。 原因 在于， bucketlnsert 要花费 与链表 长度成 比例的 时间， 而这一 长度平 均而言 
肯定是 元素总 数除以 散歹1 J 表元 数， 也就是 nl B 。 

一 个有趣 的结果 就是， 如果让 5 约等于 集合中 元素的 数量， 也就 是说， 令 〃和 5 非常 接近， 
则 n/S 大约为 1， 对 散列表 执行各 种词典 操作平 均花费 0(1) 的 时间， 就和 我们使 用特征 向量表 
示时一 样了。 如 果尝试 通过让 5 比 《 大得多 来改善 时间， 会使 多数散 列表元 为空， 而这样 做之后 
找到散 列表元 头部仍 然要花 0(1) 的 时间， 因此让 5 比《 大很多 并不会 显著改 善运行 时间。 

还 必须考 虑到， 在 某些情 况下， 可能 没法让 S —直与 〃很 接近。 如 果该集 合增长 迅速， 那么 
«增 加了而 5 仍然 不变， 最终 会变得 很大。 重组 散列表 是有可 能的， 只要 通过为 5 选 择一个 
更大 的值， 然后 将每个 元素都 插入新 的散列 表中。 完成 这一工 作需要 的 时间， 不过 这一时 
间不会 大于向 先前的 散列表 中插入 《 个元素 所需的 00) 时间。 请 注意， 这里的 总时间 00) 是执 
行《 次插人 所花的 时间， 每次 插人平 均花费 时间为 0(1) 。 

7.6.4  习题 

(1)  继 续向图 7-13 中的散 列表填 充单词 with  up  so  floating  many  bells  down。 

(2) * 评价 一下， 下 列散列 函数在 将常用 英语单 词集合 分成大 小基本 相同的 散列表 元时， 效率有 多高。 
⑻ 使用 5  =  10, 并设 /z(x) 是单 词长度 x 除以 10 得到的 余数。 

(b)  使用 5  =  128  , 并设 A(x) 是单词 x 最后 一个字 符的整 数值。 

(c)  使用 S  =  10。 求单词 x 中各字 符对应 整数值 的和。 取求和 结果的 平方， 然后 取该结 果除以 10 的 
余数。 

(3)  使 用与图 7-14 所 示代码 相同的 假设， 编写 C 语言 程序， 用于 对散列 表执行 (a) 删除； （b) 查找 操作。 

7.7 关系 和函数 

尽 管一般 会假设 集合中 的元素 都是原 子的， 不过 在实践 中让元 素具有 某种结 构往往 是很实 
用的。 例如， 在 7.6 节中 我们谈 论了长 32 个 字符的 字符串 元素。 另一 种可作 为元素 的重要 结构是 
定 长表， 它们和 C 语言的 结构体 类似。 用作集 合元素 的表称 为元组 （ tuple  )， 表中 每个元 素称为 
元组 的组分 （ component  )。 

元组中 组分的 数量称 为元组 的元数 （arity)。 例如， （a 力) 是 元数为 2 的 元组， 其第一 个组分 
为 a, 第二 个组分 为纟。 元数为 A 的元组 也称为 A 元组。 

以具有 相同元 数 （ 比 方说是 幻 的 元组为 元素形 成的集 合称为 关系。 这一 关系的 元数就 是灸。 
元数为 1 的元 组或关 系是一 元的。 如果 元数为 2, 就是二 元的。 一般 来说， 如果 元数为 t 那么元 
组或关 系就是 A： 元的。 


① 这可 能是图 7-11 所 示散列 函数的 情况， 也可能 是实践 中遇到 的大多 数散列 函数的 情况。 计 算散列 表元编 号的时 
间可能 取决于 元素的 类型。 例如， 更 长的字 符串可 能需要 为更多 的整数 求和， 但这 一时间 与存储 的元素 数量没 
关系。 
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♦ 示例 7.17 

关系 尺 = {(1,2),  (1,3),  (2, 2)} 就是 元数为 2 的 关系， 也 就是二 元关系 。它 的成员 分别为 (1,2)， （1,3) 
和 (2, 2)， 都是 元数为 2 的 元组。 

在本 节中， 我们 主要考 虑二元 关系。 还有很 多非二 元关系 的重要 应用， 特别 是在表 列数据 
(就 像在 关系数 据库中 那样） 的表 示和操 作中。 我们 将在第 8 章中 进一步 讨论该 主题。 

7.7.1 笛 卡儿积 

在正式 研究二 元关系 之前， 需要定 义另一 种集合 运算。 设』 和 5 是两个 集合， 表示为 Ax  B 
的 J 和 5 的积， 是指从 A 中选 出第 一个组 分并从 B 中选岀 第二个 组分所 组成的 有序对 的集合 ，也 
就是 

A  x  B={(a,b)\a  e  AKb  e  B} 

该 乘积有 时也叫 作笛卡 儿积， 是以法 国数学 家勒内 •笛 卡儿的 名字命 名的。 

♦ 示例 7.18 

回想 一下， 符号 z 约定 俗成 是表示 所有整 数的集 合的。 因此， ZxZ 就表示 整数有 序对的 
集合。 

再举个 例子， 如果 4 是双兀 素集 {1,2} ， 而 5 是三 兀素集 {a 力, c} ， 那么 J  x  5 就是 6 兀素集 {(1,<3)， 
(1  力)， (l,c),  (2,a),  (2,b),  (2,c)}0 

请 注意， 集合的 积这一 名称是 名副其 实的， 因 为如果 J 和 5 都是有 限集， 那么 中 元素的 
数量， 正好是 ^ 中元 素数 量乘以 5 中元 素数量 的积。 

7.7.2 两个 以上集 合的笛 卡儿积 

与 算术积 不同， 笛卡儿 积不具 备交换 律和结 合律这 些常规 属性。 很容 易找出 
的 例子来 推翻交 换律。 而结 合律更 是无从 说起， 04  x5)xC 的成 员有序 对具有 “0),4 的形 式， 
MA  x  (5  x  C) 的成员 有序对 则形如 (a,(b,c))  0 

因为在 很多时 候需要 谈论多 元组的 集合， 所 以需要 将集合 的积的 表示法 扩展到 元 笛卡儿 
积。 设為 X 為 x  —  xA 表 示集合 4、 為 、…、 的积， 也就 是说， 满足 ％  e 為且 a2  e 為且 …且 
ak  的玩组 0P  a2,  •••,  ak) 的 集合。 

♦ 示例 7.19 

Zx  ZxZ 表示的 是整数 三元组 似, 幻的 集合， 例如它 包含了 三元组 (1,2, 3)。 不 要把该 三元笛 
卡儿积 与表示 有序对 ((1,2), 3) 的 (Z  x  Z)  x  Z, 或 是表示 有序对 (1,(2, 3)) 的 Z  x  (Z  x  Z) 弄 混了。 

另一 方面， 要注 意到这 3 种乘 积表达 式都可 以用由 3 个整 数字段 组成的 结构体 表示。 不同之 
处在 于解释 结构体 类型的 方式。 因此我 们很容 易混淆 加括号 和不加 括号的 乘积表 达式。 同样， 

以 下三个 C 语言类 型声明 

struct  {int  f 1 ;  int  f 2 ;  int  f 3 ; } ; 

struct  {struct  {int  f 1 ;  int  f2;};  int  f3;}; 

struct  {int  fl;  struct  {int  f 2;  int 

都是以 相似的 方式存 储的， 只 是存取 字段的 表示方 式有所 区别。 
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7.7.3 二 元关系 

二 元关系 是作 为集合 J 和集合 5 笛 卡儿积 子集的 有序对 集合。 如 果关系 是 ^  X  S 的子 集， 
就说 i? 是 到 5 的 关系。 而3 就是该 关系的 定义域 （ domain),  5 就是 该关系 的值域 （ range  )。 如果 
对 tL4 是相同 集合， 就说 4 上的 关系， 或 者说是 “定 义域”  J  “上” 的 关系。 

♦ 示例 7.20 

整数 上的算 术关系 〈是 ZxZ 的 子集， 由那 些满足 a 小于 如勺 有序对 (fl 力) 组成。 因此， 符号 
〈可 被视 作集合 {(a 力 )|(a 力) eZ  x  Z， 且 a 小于 6} 的 名称。 然后 我们用 a<3 作为 u{a,b)  & 〈”或 
> 力) 是关系  <的 成员” 的简略 形式。 而整数 上的其 他算术 关系， 比如  >或<， 也 可以按 照相似 
的方式 定义， 而且 实数上 的算术 比较都 可以按 照相似 的方式 定义。 

再举个 例子， 考 虑示例 7.17 中 的关系 i?。 它的 定义域 和值域 是不确 定的。 我 们知道 1 和 2 肯定 
在 其定义 域中， 因为 这两个 整数是 中 元组的 第一个 组分。 同样， 我 们知道 R 的值 域肯 定包含 2 
和 3。 不过， 可将 R 看作是 {1,2} 到 {2,3} 的 关系， 或是将 其视作 Z 到 Z 的关 系， 这只 是无数 选择中 
的两 个例子 而已。 

7.7.4 关 系的中 缀表示 

正 如我们 在示例 7.20 中所表 示的， 二 元关系 的中缀 表示法 是很常 用的， 所以， 像<  关系这 
样本 来是有 序对的 集合， 却可 以写在 关系中 各有序 对的两 个组分 之间。 这 也就是 为什么 我们通 
常会看 到诸如 1<2 和 4  >  4 这 样的表 达式， 而不 是看到 更为学 究式的 (1,2)  e  < 或 (4,4)  e  > 。 

♦ 示例 7.21 

关 系的中 缀表示 法可以 用于任 意类型 的二元 关系。 例如， 示例 7.17 中 的关系 i? 就可 以写为 3 
个 “ 事实”  1R2、 li?3 和 2尺2。 


声 明的及 当前的 定义域 和值域 

示例 7.20 的 第二部 分强调 了  一点， 就是 不能只 从看到 的表象 来断定 关系的 定 义域和 值域。 
作为第 一个组 分出现 的元素 组成的 集合肯 定是定 义域的 子集， 而作 为第二 个组分 的元素 组成的 
集合 一定是 值域的 子集。 不过， 在定义 域或值 域中还 可能有 其他的 元素。 

当 关系不 发生改 变时， 这 种差异 是不重 要的。 不过， 我们在 7.8 节和 7.9 节， 以 及在第 8 章的 
内 容中会 看到， 值 会发生 改变的 关系是 非常重 要的。 例如， 我们 可能谈 论某一 关系， 其 定义域 
是 某门课 程中的 学生， 而 值域则 是一些 整数， 表示 作业的 总分。 在开课 之前， 该 关系中 是没有 
有序 对的。 在第 一次作 业被评 分后， 每个学 生就各 有了一 个有序 对。 随着 时间的 推移， 会有学 
生弃 选这门 课程， 或是 有学生 加入该 课程， 而总分 在不断 增加。 

我们 可以将 该关系 的定义 域定义 为所有 在该大 学注册 的学生 ，而 将值域 定义为 整 数的集 
合。 当然， 不论 何时， 该关 系的值 都是这 两个集 合笛卡 儿积的 子集。 另一 方面， 不 管什么 时候， 
关 系都具 有当前 定义域 和当前 值域， 就是 由出现 在关系 中有 序对第 一个组 分和第 二个组 分位置 
的 元 素分别 构成的 集合 。当 我们 需要 加以 区 分时， 就会 将关系 本来 的定义 域和值 域称作 声明的 
定 义域和 值域。 当前 的定义 域和值 域分别 是声明 的定 义域和 值域的 子集。 
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7.7.5 表示 二元关 系的图 

可以 用图来 表示定 义域为 3且 值域为 5 的关系 I 先为 在^和 （或 ） 5 中 的每个 元素画 一个节 
点。 如果 就画 一条从 a 到 6 的箭头 （“弧 ” ）， 我们 将在第 9 章中更 详尽地 讨论一 般图。 

♦ 示例 7.22 

表 示示例 7.17 中关系 i? 的 图如图 7-15 所示。 它 有表示 1、 2、 33 个 元素的 3 个 节点。 因为 LR2, 
所以 从节点 1 到节点 2 有一 条弧。 因为 li?3, 所以有 一条从 1 到 3 的弧。 而且有 2尺2, 所以有 一条从 
节点 2 到 它本身 的弧。 除此 之外没 有其他 的弧， 因为 中不再 包含其 他有序 对了。 


图 7-15 表 示关系 {(1,2), (1,3), (2, 2)} 的图 


7.7.6 函数 

假设有 从定义 域3 到值域 5 的关系 具 有如此 属性： 对 其定义 域^ 中个每 个成员 a 而言， 在其 
值域 5 中最多 有一个 M 茜足 这样的 就被 称作从 定义成 4 到值域 5 的偏 函数。 

如果对 J 中每 个成员 《 来说， 都 刚好在 5 中有一 个元素 M 茜足 《你， 就说 是 >人4 到 5 的全 函数。 
偏函数 和全函 数之间 的区别 在于， 偏 函数可 能对其 定义域 中的某 些元素 而言无 定义， 例如 ，对 
J 中 的某个 a， 可能在 5 中不存 在满足 的乂 我 们会使 用术语 “ 函数” 来 指代偏 函数更 为一般 
化的 概念， 不过， 只 要偏函 数与全 函数之 间的区 别关系 重大， 我们就 会用上 “偏 ”字。 

有一种 常用的 函数表 示法， 如果 6 是满足 a 你的 唯一 元素， 通常 就写成 i? ⑷ =  6。 

♦ 示例 7.23 

设 5 是由 {(a,b) \b  =  a2} ( 也就是 第二个 组分为 第一个 组分平 方的有 序对的 集合） 给出 的从 Z 
到 Z 的全函 数。 那么琪 有诸如 (3, 9)、 （-4, 16) 和 (0,0) 这样的 成员。 我们 可以通 过写岀 *S(3)  =  9、 
S(-4)  =  16 和 *S(0)  =  0 来表示 S 为平 方函 数这一 事实。 

请 注意， 函数 在集合 论中的 概念与 C 语言中 函数的 概念没 有太大 区别。 也就 是说， 假设 s 是 
具有如 下声明 

int  s(int  a) 

{ 

return  a*a; 

> 

的 C 语言 函数， 它接受 一个整 数作为 参数并 返回该 整数的 平方。 我们通 常会将 s(a) 视 为与负 a) 
相同的 函数， 尽管前 者是计 算平方 的一种 方式， 而后者 只是抽 象地定 义了求 平方的 运算。 还要 
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注 意到， 在 实际应 用中， s(a) 总是偏 函数， 因为出 于计算 机算术 能力的 限制， 有很多 a 的值让 
s  (a) 不 会返回 整数。 

C 语言中 也有接 受多个 参数的 函数。 接受 两个整 数参数 a 和 b， 并返 回一个 整数的 C 语言 函数 
f， 就是从 ZxZ 到 Z 的函 数。 同样， 如果 两个参 数分别 有着让 它们分 属集合 J 和集合 5 的 类型， 
而 f 返回的 是类型 C 的某个 成员， 那么 f 就是 >^4x5 到 C 的函 数。 更一般 地讲， 如 果函数 f 接受分 
别 来自集 合冬為 、…、 A 的& 个参数 ，并返 回集合 5 的某 个成员 ，我 们就说 f 是从 4x4 
到 5 的函数 。 

例如， 可以将 6.4 节中的 lookup  (X,  L) 函数 视作从 ZxZ 到 {TRIE， FALSE} 的 函数。 这里的 l 
是整数 链表的 集合。 


函数 的多种 表示法 

从 AX  5 到 C 的 函数 F 从理论 上讲是 04  X  5)  X  c 的子集 。因 此函数 F 中 的有序 对都应 该具有 
这样的 形式， 其中 a、 K  c 分别 是集合 J、 5、 C 的 成员。 使 用函数 的特别 表示法 ，可 
以写成 F{a,  b)  =  c  a 

还可 将柯见 作从 到 C 的 关系， 因 为每个 函数都 是一个 关系。 使用 关系的 中缀表 示法， 
((a»,c) 在 7^中 这一事 实也可 以写为 (a,b)Fc 。 

在将笛 卡儿积 扩展到 多个集 合时， 我们可 能希望 从乘积 表达式 中删除 括号。 因此， 我们可 
能将 04x5)  xC 视为技 术上讲 与其不 相等的 表达式 JxSxC。 在 这种情 况下， F 的成 员就 可以写 
为 (a,b,c) 。如 果将 F 存储为 这种三 元组的 集合， 就一定 要记住 前两个 组分一 起组成 定义域 元素， 
而第三 个组分 是值域 元素。 


正式 地讲， 从定 义域為 x 為 x_"x^4 到值域 5 的 函数， 就 是形如 ((aP …, ak),b) 的有序 对的集 
合， 其中 a, 是集 合為的 成员， 6 是集合 5 的 成员。 请 注意， 该有 序对的 第一个 元素本 身也是 个灸元 
组。 例如， 上面 提到的 lookup  (x,L) 函 数也可 以视作 有序对 的 集合， 其中 x 是整数 ， 1 
是整数 链表， 而？ 要么是 TRUE 要么是 FALSE, 具体 取决于 X 是否 在链表 Z 中。 不管函 数是用 C 语言 
编 写的， 还 是在集 合论中 正式定 义的， 都可以 将其视 为一个 从定义 域集合 接受某 个值并 生成值 
域中 某 个值的 容器， 如表 示函数 1  ookup 的图 7- 1 6 所示。 


(x,  L)  - ►  lookup 


图 7-16 函数 将定义 域中的 元素与 值域中 唯一的 元素关 联起来 


7.7.7  —— 对应 

设从 定义现 4 到值域 5 的 偏函数 F 具有 下列 属性。 

(1)  对 J 中的每 个元素 a, 在 5 中 都有一 个元素 6 满足 FO)  =  3 。 

(2)  对 5 中的 每个乂 在 J 中都存 在某个 a 满足 F、a)  =  b 。 

(3)  在 5 中没有 这样的 匕 使槪 4 中有两 个元素 〜和《2 满足 尺⑹和八叱) 都是^ 
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这样的 i7 就称为 i>U 到 5 的 —— 对应。 而这种 —— 对 应也可 以用术 语双射 ( bijection ) 来 表示。 

属性 (1) 表示 F 是 从沿岐 的全 函数。 属性 (2) 是表示 F 是 从^ 到 5 之 上的全 函数的 条件。 一些数 
学家会 使用术 语满射 （surjection) 来表示 这种从 J 到 5 之 上的全 函数。 

属性 (2) 和属性 (3) — 起表示 f 就像从 5 到 J 的全函 数那样 。而具 有属性 (3) 的全函 数有时 也被称 
为单射 (injection)。 

一一 对应 基本上 就是两 个方向 上的全 函数， 不 过要注 意到， F 是否为 一一 对 应不止 取决于 F 
中的有 序对， 还取 决于声 明的定 义域和 值域。 例如， 可以 取任意 从2 到 5 的 一一 对应， 并 通过向 
J 中增加 某个在 F 中未 提及的 新元素 e 而改 变定 义域。 这样 碎尤 不 会是从 JU 河 到 5 的 —— 对应。 

♦ 示例 7.24 

示例 7.23 中从 Z 到 Z 的 求平方 函数辟 尤不是 —— 对应。 它 确实满 足属性 (1)， 因 为对每 个整数 /， 
都存 在某个 整数， 也就是 /2, 满足 M/)  =  /2。 不过， 它不满 足属性 (2)， 因为对 某些在 Z 中 的乂具 
体来说 就是所 有的负 整数， 在 Z 中不 存在 a 使得从 幻 =  6。 S 也不满 足属性 (3)， 因为 存在很 多两个 
不同的 a 使 *S(a) 等于 同一个 6 的 例子。 例如， 5t3)  =  9， 而且 5*(-3)  =  9。 

要举 一一 对应的 例子， 可以 考虑定 义为尸 (为 =  a+l 的从 Z 到 Z 的全函 数尸。 也 就是说 ，尸会 
为任一 整数加 1。 例如， P(5)  =  6  , 而且 P(-5)  =  -4。 还 可以将 尸视作 由二元 组形成 的集合 
{•••,(— 2，-1)，(-1，0)，(0,1),(1,2)/"} ， 或 者是图 7-17 所示 的图。 


图 7-17 表示 函数尸 0)  =  a +  1 这一关 系的图 


我 们声明 尸是从 整数到 整数的 一一 对应。 首先， 这 是个偏 函数， 因为当 为整数 a 加上 1 时， 
可得 到唯一 的整数 《  +  1。 它是满 足属性 (1) 的， 因 为对每 个整数 a， 存在某 个作为 P0) 的整数 
a  +  lo 属性 (2) 也得到 满足， 因为 对每个 整数乂 都存 在某个 整数， 即 6-1， 满足 尸(6-1)=办。 
最后， 属性 (3) 也是满 足的， 因 为对某 个整数 6 而言， 不 存在这 样两个 不同的 整数， 使得 给这两 
个 整数各 自加上 1 后都得 到办。 

从^ 到 5 的 —— 对 应是在 2 和 5 的元 素之间 构建唯 一关联 的一种 方式。 例如， 如 果双手 合十， 
左手 和右手 的大拇 指触在 一 '起， 左 手和右 手的食 指触在 一 '起， 等等。 我 们可以 把左手 手指集 
合与 右手手 指集合 之间的 这种关 联看作 一一 对应 F， 定义为 F (“ 左拇 指”） = □右拇 指 □， F (“左 
食 指”） = □右食 指口， 等等。 也 可以将 这种关 联看作 F 的逆 函数， 也 就是从 右手到 左手的 函数。 
总的说 来， 可 以通过 调换有 序对中 组分的 次序， 反转 从3 到 5 的 —— 对应， 从而 成为从 5 到 2 的 
一一 对应。 

左右手 之间存 在这种 一一 对应 的结果 就是每 只手手 指的数 量是相 同的。 这似 乎是种 自然而 
且直 觉上的 概念， 当一个 集合到 另一个 集合正 好存在 一一 对 应时， 这两个 集合有 着相同 数量的 
元素。 不过， 我们在 7.11 节中会 看到， 当集合 为无限 集时， 从这一  “元 素数量 相同” 的 定义会 
得 出一些 惊人的 结论。 

7.7.8  习题 

(1) 给出使 j  X  5 不同于 5  xj 的集合 J 和 5 的例 子。 
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(2)  设 i? 是由 a 拙、 bRc、 cRd、 和 Me 淀义的 关系。 

(a)  画 岀表示 i? 的图。 

(b)  i? 是否为 函数？ 

(c)  为 i? 指岀 两个可 能的定 义域， 并指 岀两个 可能的 值域。 

(d)  满足 穴是*5 上关系 （即 定义 域和值 域都可 以是幻 的最 小集合 g 什么？ 

(3)  设 7 是树， 并设 S 是树 扣勺 节点的 集合。 设 i? 是节 点间的 “ 父子” 关系， 也就 是说， 当 且仅当 0是^ 的 
子节 点时有 0办。 回 答以下 问题， 并验证 子集的 答案。 

(a)  不管树 r 是什 么， i? 是 否为偏 函数？ 

(b)  不管树 r 是什 么， i? 是否 为从雜 ij 劝勺全 函数？ 

(c) i? 有没有 可能是 —— 对应 （即 对某树 r 而 言）？ 

(d)  表示 i? 的图 是什么 样的？ 

(4)  设 i? 是整 数集合 {1,2, …, 10} 上 的关系 ，其 中如果 a 和 6 是不同 整数而 且有除 1 之外的 公约数 ，就说 
例如， 2R4,  6R9, 但 是没有 2i?3。 

(a)  画 岀表示 i? 的图。 

(b) i? 是否为 函数？ 为 什么？ 

(5) * 虽然我 们看到 5=  04  xB)x  CmT=A  x(Bx  C) 是 不同的 集合， 但是通 过展示 岀它们 之间存 在的自 
然的 一一 对应， 可以证 明它们 “从根 本上讲 是相同 的”。 对 5中 的每个 而言 ，设 
F((o 凡 c))  =  (a,(6,c)) 。 证明 f 是从翊 Jr 的 —— 对应。 

(6)  F(10)  =  20  ,  10F20 和 (10,20)  eF 这 3 项 陈述有 何共同 之处。 

(7)  * 关系 i? 的逆关 系 （ 简称 i? 的逆） 是 指满足 (a,b) 在 R 中的 有序对 (b,a) 的 集合。 

(a)  说 明如何 从表示 i? 的图得 岀表示 i? 的逆 的图。 

(b)  如果 i? 是全 函数， 那么 i? 的 逆是否 一定为 函数？ 如果 i? 是 —— 对 应呢？ 

(8)  证明： 当 且仅当 某关系 及其逆 关系都 是全函 数时， 该 关系是 一一 对应。 

7.8 将 函数作 为数据 来实现 

在程序 设计语 言中， 函数通 常是由 代码实 现的， 不 过当它 们的定 义域很 小时， 可以 使用相 
当类 似于实 现集合 的技巧 来实现 它们。 我们 在本节 中要讨 论如 何使用 链表、 特征 向量和 散列表 
来实 现有限 函数。 


作为程 序的函 数与作 为数据 的函数 

尽管 7.7 节 中我们 在函数 的抽象 概念与 C 语言中 实现的 函数 间作了 很强 的 类比， 不过 还是应 
该 注意到 它们间 的重大 差别。 如果 F 是 C 语言 函数， 而 X 是其定 义域集 合中的 成员， 那么 7^就 告 
诉了 我们 如 何计算 FOc) 的值 。而同 样的 程序 对任意 的值 JC 都 是起作 用的。 

然而， 当 我们将 函数表 示为数 据时， 首 先就需 要函数 是由有 序对的 有限集 构成。 其次 ，通 
常 这些有 序对基 本是不 可预 测的。 也就 是说， 在给定 jc 的情 况下， 没什么 方便 的办法 来计算 F(x) 
的值。 我们 能做的 最佳做 法就是 创建表 给出每 个满足 FO,.)  =  & 的 有序对 

(«i,  bx),  (a2,b2),  •••,  (a„,  bn) 

这样的 函数事 实上是 数据， 而不是 程序， 尽 管原则 上讲可 以创建 程序， 将 这样的 表存储 为该程 
序的一 部分， 并 在给定 jc 的情 况下从 内部表 中查找 FU)。 不过， 更 加高效 的做法 是将该 表单独 
储存为 数据， 并利用 可 以处理 任一这 种函数 的通用 算 法来进 行值的 查找。 


7.8.1 对函数 的操作 
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最常 对函数 执行的 操作与 对词典 的操作 类似。 假设 F 是从 定义 域集合 j 到值 域集合 5 的 函数。 
那么我 们可以 进行下 述操作 

(1)  插 入满足 =  6 的新 有序对 (^的。 唯 一的微 小区别 在于， 因为 F —定是 函数， 所以假 
如 其中已 经存在 有序对 (《,c) ， 那 么该有 序对肯 定会被 (fl, 6) 替代。 

(2)  删除与 FU) 关联 的值。 在 这里， 我 们只需 要给出 定义域 中的值 a 即可。 如 果存在 M 茜 
足 F(a)  =  6  , 有序对 (a,6) 就会从 集合中 删除。 如果 没有这 样的有 序对， 就 不会发 生任何 改变。 

(3)  查找与 FU) 关联 的值， 也就 是说， 给定 定义域 中的值 a， 返 回满足 F(«)  =  6 的值乂 如果 
集合 中没有 这样的 有序对 (a, 的 ， 就返回 某个特 殊的值 来警告 F(a) 是未定 义的。 

♦ 示例 7.25 

假设 F 由有 序对 {(3,9),(-4，16)，(0,0)} 组成 ，也就 是说， F ⑶ =  9、 K-4)  =  16 而且 尸(0)  =  0。 
那么 会返回 9， 而 则 返回一 个特殊 的值， 指示没 有值被 定义为 F(2) 。 如果 i7 
是 “求 平方” 函数， 那么值 -1 可以用 来指示 不存在 的值， 因为 -1 不可能 是任何 整数真 正的平 
方值。 

操作办 / 你 (3) 会删除 有序对 (3, 9)， 办 / 咖 （2) 则没有 效果。 如果 执行加 er?(5,25)， 那么 会在集 
合 F 中添加 有序对 (5, 25)， 或 者说现 在有了  F(5)  =  25 。 如果 执行加 er<3,10)， 就会从 F 中删 除旧的 
有序对 (3, 9)， 并 将新的 有序对 (3, 10) 添加到 7^中， 这 样一来 就有了  F(3)  =  10 。 

7.8.2 函 数的链 表表示 

函 数作为 有序对 集合， 可以像 其他任 何集合 那样存 储在链 表中。 定 义含有 3 个 字段的 单元是 
很实 用的， 一 个表示 定义域 的值， 另 一个表 示值域 的值， 最后 一个表 示指向 下一个 单元的 指针。 
例如， 我们可 以按照 如下方 式定义 单元。 

typedef  struct  CELL  *LIST; 
struct  CELL  { 

DTYPE  domain; 

RTYPE  range ; 

LIST  next; 

>； 

其中 DTYPE 是 定义域 元素的 类型， 而且 RTYPE 表 示值域 元素的 类型。 那么 函数就 可以表 示为指 
向链表 （第 一个 单元） 的 指针。 

图 7-18 中的函 数执行 操作如 奶 t(>AZ)， 假设 DTYPE 和 RTYPE 都是 32 字符的 数组。 我 们查找 
在 domain 字段中 含有值 a 的单 元。 如果 找到， 就将其 range 字段置 为纟。 如果 到达链 表末端 ，就 
创建 一个新 单元， 并将 (fl, 句存储 进去。 否则， 测试该 单元中 是否含 有定义 域元素 a。 如 果有， 
那么就 将值域 的值改 为纟， 这样就 行了。 如 果定义 域中有 《 之外 的值， 就 递归地 将其插 人链表 
尾部。 

如 果函数 F 中有 《 个有 序对， 那 么插入 操作平 均要花 0(«) 的 时间。 同样， 用于 表示为 链表的 
函数的 delete 和 lookup 函 数也平 均需要 0{n) 的 时间。 
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typedef  char  DTYPE[32] ,  RTYPE [32] ; 

void  insert (DTYPE  a,  RTYPE  b,  LIST  *pL) 

{ 

if  ((*pL)  ==  NULL)  {/*  在表 的末端  */ 

(*pL)  =  (LIST)  malloc (sizeof (struct  CELL)); 
strcpy( (*pL)->domain,  a) ; 
strcpy( (*pL)->range,  b) ; 

(*pL)->next  =  NULL; 

> 

else  if  ( ! strcmp(a,  (*pL) ->domain) )  /*  domain  字段是  a, 

改变 F(a)  V 

strcpy ( (*pL) ->range ,  b) ; 
else  /*  domain  字段 不是  a  */ 

insert (a,  b,  & ((*pL)->next)) ; 

>； 


图 7-18 将新事 实插人 表示为 链表的 函数中 

7.8.3 函 数的向 量表示 

假 设声明 的定义 域是从 0 到 DMM-1 的 整数， 也 可以通 过枚举 类型来 定义。 然 后我们 可以使 
用特 征向量 的表示 函数， 将 表示特 征向量 的类型 FUNCT 定 义为： 


typedef  RTYPE  FUNCT [DNUM] ; 

这 是判断 该函数 为全函 数或者 RTYPE 包含一 个可以 解释为 “值不 存在” 的值 的关键 所在。 

♦ 示例 7.26 

假 设我们 要存储 与苹果 有关的 信息， 就像图 7-9 中的 收获期 信息， 不过 现在希 望给岀 具体的 
收获 月份， 而不 是早熟 / 晚熟 这种 二元的 选择。 通过 定义如 下枚举 类型， 我 们为定 义域和 值域中 
的 每个元 素都关 联了一 个整数 常量： 

enum  APPLES  {Delicious ,  GrannySmith,  Jonathan,  McIntosh, 

Gravenstein,  Pippin}; 

enum  MONTHS  {Unknown ,  Jan,  Feb,  Mar,  Apr,  May,  Jun，  Jul，  Aug, 

Sep,  Oct ,  Nov,  Dec} ; 

这 一 声明将 0 与 标识符 Delicious 关联， 将 1 与 Granny  Smith 关联， 等等。 它还将 0 与 Unknown 关 
联， 将 1 与 Jan 关联， 等等。 标识符 Unknown 表示 收获月 份是未 知的。 现在 可以声 明数组 

int  Harvest [6] ; 

用该 Harvest 数组 表示图 7-19 所示的 有序对 集合。 接 着数组 Harvest 就 成了图 7-20 那样， 其 中数据 
项 Harvest  [Delicious]  =  Oct 意味着 Harvest  [0]  =  10。 


苹  果 

收 获月份 

美味 （ Delicious ) 

十月 (Oct) 

格兰尼 • 史密斯 （ Granny  Smith  ) 

八月 （Aug) 

乔纳森 （ Jonathan ) 

九月 （ Sep ) 

旭苹果 （ McIntosh ) 

十月 (Oct) 

格拉文 施泰因 （ Gravenstein  ) 

九月 （ Sep ) 

翠玉苹 果 （ Pippin  ) 

十一月 （Nov) 

图 7-19 苹 果的收 获月份 


7.8 将 函数作 为数据 来实现  303 


Delicious 

Oct 

GrannySmith 

Aug 

Jonathan 

Sep 

McIntosh 

Oct 

Gravenstein 

Sep 

Pippin 

Nov 

图 7-20  Harvest  数组 


7.8.4 函数 的散列 表表示 

我 们可以 将属于 某函数 的有序 对存储 在散列 表中。 关键 的是， 我们只 对定义 域的元 素应用 
散列 函数， 以确 定有序 对所属 的散列 表元。 形 成散列 表元的 链表单 元都有 一个表 示定义 域元素 
的 字段， 而另一 字段表 示对应 的值域 元素， 第 三个字 段则是 将链表 中的一 个单元 链接到 下一个 
单元。 下 面举个 例子， 应 该就能 把这个 技巧说 清了。 

♦ 示例 7.27 

我们 继续使 用示例 7.26 中有关 苹果的 数据， 不过现 在要使 用实际 名称来 表示定 义域。 要表 
示函数 Harvest, 我们会 使用含 5 个 散列表 元的散 列表。 这 里要将 APPLES 定义为 32 字符的 数组， 
而 MONTHS 还 是示例 7.26 中 那样的 枚举。 散列 表元是 链表， 具 有表示 APPLES 类型 定义域 元素的 
variety 字段、 表示 int 类型 （月 份） 值域 元素的 harvested 字段， 以及 指向链 表中下 个元素 
的链 接字段 next 。 

我们会 使用与 7.6 节中图 7-11 类 似的散 列函数 /?。 当然， A 只会应 用到定 义域元 素上， 也就是 
说， 只会应 用到由 苹果品 种名组 成的长 32 个字符 的字符 串上。 

现在， 可以 将类型 HASHTABLE 定义为 B 个 LIST 组成的 数组。 其中 5 是散 列表元 的数量 ，我 
们 已经将 其定为 5 了。 所有 这些声 明都岀 现在图 7-22 的 开头。 然 后就可 以声明 散列表 Harvest 
来表示 所需的 函数。 

Harvest 


GrannySmith 

McIntosh 

• 

八月 

十月 

參 

參 

Gravenstein 

• 

九月 

Delicious 

Jonathan 

Pippin 

參 

十月 

九月 

十一月 

图 7-21 存储 在散列 表中的 苹果品 种名称 及其收 获月份 
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在 插人图 7-19 中 列出的 6 个苹 果品种 之后， 散列表 元中单 元的分 布如图 7-21 所示。 例如 ，如 
果 将单词 Delicious 的 9 个 字符对 应的整 数值加 起来， 就得到 929。 因为 929 除以 5 的 余数为 4, 
所以美 味苹果 （ Delicious  ) 就属于 4 号散歹 ij 表元。 而表示 该苹果 品种的 单元将 字符串 Delicious 
存放在 variety 字段中 ， 将月份 Oct 存放在 harvested 字段中 ， 最 后还有 一个指 向散歹 ll 表元中 
下一个 单元的 指针。 


#include  <string.h> 

#define  B  5 

typedef  char  APPLES  [32] ; 

enum  MONTHS  {Unknown ,  Jan,  Feb ,  Mar ,  Apr,  May,  Jun,  Jul,  Aug, 
Sep,  Oct ,  Nov,  Dec} ; 
typedef  struct  CELL  *LIST ; 
struct  CELL  { 

APPLES  variety; 
int  harvested; 

LIST  next ; 

>; 

typedef  LIST  HASHTABLE  [B] ; 

int  lookupBucket (APPLES  a,  LIST  L) 

{ 

if  (L  ==  NULL) 

return  Unknown ; 

if  (  !  strcmp(a,  L->variety)  )  /  *  找到  *  / 
return  L->harvested; 
else  /* 未找到 a, 检 查尾部 */ 

return  lookupBucket (a ,  L->next) ; 

}  " 

int  lookup (APPLES  a,  HASHTABLE  H) 

{ 

return  lookupBucket (a,  H[h(a)] ) ; 

}  ' 


图 7-22 用于通 过散列 表表示 的函数 的查找 

7.8.5 对 用散列 表表示 的函数 的操作 

要执行 插入、 删除 和查找 操作， 都要 从需要 散列的 定义域 值从而 找到散 列表元 开始。 要插 
入 有序对 (a, 的， 就要 找到散 列表元 /Ka)， 并 查找它 对应的 链表。 接下来 的操作 就和图 7-18 中给 
出的 向链 表插入 函数有 序对的 函数一 样了。 

要执行 delete  (a) ， 先要 找到散 列表元 /Ka)， 查找 具有定 义域值 fl 的单 元， 要 是找到 这样的 
单元， 就从 链表中 删除该 单元。 而执行 p(a) 操 作还是 要散列 a, 然 后在散 列表元 咖) 中查找 
含有定 义域值 a 的单 元。 如 果找到 这样的 单元， 就 会返回 与之对 应的值 域值。 

例 如如图 7-22 所示 的函数 lookup  (a,  H) 。 函数 lookupBucket  (a,  L) 会沿 着与某 散列表 
元对应 的链表 L 向下 查找， 并 返回值 harvested  (a) ， 也 就是苹 果品种 a 收获的 月份。 如果 这一月 
份 是未定 义的， 就 返回值 Unknown。 
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向量和 散列表 

示例 7.26 和示例 7.27 中看 待有关 苹果的 信息的 方式有 着根本 的区别 。 在 特征向 量法中 ，苹 
果品种 是个固 定集， 是 枚举类 型的。 当 C 语言 程序 正在运 行时， 是没 办法改 变苹果 名称集 合的， 
而 且对一 个未出 现在枚 举集合 中的名 称执行 查找也 是没意 义的。 

另一 方面， 当 我们用 散列表 来构建 同一函 数时， 是将苹 果名称 作为字 符串， 而不是 枚举类 
型的 数字。 这样 一来， 就有 可能在 程序正 在运行 时对名 称集合 进行修 改了， 比方 说是为 了响应 
某些 与新的 苹果品 种有关 的输入 数据。 对散 列表中 未出现 的品种 执行查 找是可 行的， 而 且我们 
必 须有所 防备， 要加上 Unknown 这 样一个 “月 份”， 以 防出现 查找散 列表中 未提及 品种的 情况。 
因此， 散 列表的 灵活性 要比特 征向量 更佳， 不过 要付出 一些速 度上的 代价。 


7.8.6 函 数操作 的效率 

对以我 们在本 节中讨 论过 的这 3 种方 式表示 的函数 执行各 种操作 所需的 时间， 与对 词典执 
行同样 操作所 需的时 间是一 样的。 也就 是说， 如果 函数由 《 个有 序对 组成， 那么 链表表 示下每 
种 操作平 均需要 的时 间。 特征向 量法每 种操作 只需要 0(1) 的 时间， 不过， 就 像词典 那样， 
只 有定义 域类型 的大小 比较有 限时， 才能使 用该表 示法。 而具有 5 个散列 表元的 散列表 每种操 
作的平 均时间 是0«)。 如果有 可能让 5 接近 《， 那么就 可以达 到每种 操作平 均花费 0 ⑴时间 
的 水平。 

7.8.7  习题 

(1)  模仿图 7-18 中的 insert 函数， 编写 函数， 对用 链表表 示的函 数执行 (a) 删除； （b) 查找 操作。 

(2)  编写 函数， 对 用向量 表示的 函数， 也 就是由 DTYPE 类 型的整 数作为 下标的 RTYPE 类型 的数组 ，执 
行 (a) 插入； （b) 删 除和 (c) 查找 操作。 

(3)  模仿图 7-22 中的 lookup 函数， 编写 函数， 对 用散列 表表示 的函数 执行⑻ 插入； （b) 查找 操作。 

(4)  二 叉查找 树也可 用来表 示作为 数据的 函数。 为 二叉查 找树定 义合适 的数据 结构， 以 存放图 7-19 中 
的苹果 信息， 并使 用这些 数据结 构实现 (a) 插入； （b) 删除； （c) 查找 操作。 

(5)  设计 一个信 息检索 系统， 记录有 关棒球 球员击 球和击 中的信 息。 所设计 的系统 应该接 受形如 Ruth 
5  2 的三 元组， 表示 Ruth 在 5 次 击球中 击中了 2 次。 对应 Ruth 的数 据项应 该得到 适当的 更新。 大家 
应该还 能查询 任意球 员的击 球次数 和击中 次数。 实现该 系统， 使得只 要执行 插入和 查找操 作的函 
数使 用了合 适的子 程序和 类型， 就对任 意数据 结构都 有效。 

7.9 二 元关系 的实现 

二 元关系 的实现 与函数 的实现 有些许 差异。 回想 一下， 二 元关系 与函数 都是有 序对的 集合， 
不 过在函 数中， 对定义 域中的 各元素 a 来说， 最多 只能与 任一值 域元素 6 构成一 个形如 (a, 6) 的有 
序对。 而二元 关系则 不同， 可以 有任意 数量的 值域元 素与某 个给定 的定义 域元素 a 相关 联。 

在本 节中， 我们首 先会考 虑二元 关系的 插人、 删除 和查找 操作的 意义。 然后 看看已 经用到 
的 3 种实现 —— 链表、 特征 向量和 散列表 —— 是如 何一般 化到二 元关系 上的。 在第 8 章中， 我们 
会讨 论多元 关系的 实现。 通常， 表示多 元关系 的数据 结构， 都是构 建在表 示函数 和二元 关系的 
数 据结构 的 基础之 上的。 
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7.9.1 对二 元关系 的操作 

当 我们将 有序对 (a, 6) 插入二 元关系 中时， 并不需 要关心 i? 中是否 已经存 在某个 有序对 
(a,b) , 其中 但向某 个函数 中插入 的时， 就需要 关心这 个了。 原因 当然是 中 包含定 
义域值 a 的有 序对 数量是 没有限 制的。 因此， 可以 直接将 有序对 (《, 的插人 i? 中， 就 像将元 素插入 
任意 集合中 那样。 

同样， 从关系 中删除 有序对 (a, 的 也 类似于 从集合 中删除 元素： 要查 找该有 序对， 如 果存在 
就将其 删除。 

查找 操作可 以用多 种方式 定义。 例如， 我们可 以接受 有序对 (《,的， 并 询问该 有序对 是否在 
尺 中。 不过， 如果我 们因此 将对关 系的查 找操作 解释成 与刚定 义的插 入和删 除操作 那样， 与对 
任意 词典的 这些操 作行为 相同， 被操作 的元素 是有序 对而不 是原子 这一事 实就只 是个小 细节， 
它只能 影响到 词典中 元素的 类型。 

然而， 定义 lookup 来接 受定义 域元素 a ， 并 返回所 有满足 的在二 元关系 中 的值域 元素办 
往往 是很实 用的。 对 lookup 的这 种解释 给了我 们一种 与词典 有所区 别的抽 象数据 类型， 它有着 
与词典 ADT 不 同的某 些特定 用途。 

♦ 示例 7.28 

大多数 李子品 种需要 另一种 特定的 品种来 传粉， 没有 合适的 “传粉 者”， 这棵 李树就 不会结 
果。 有少数 品种是 “自育 的”， 也就 是说它 们可以 作为自 己的传 粉者。 图 7-23 展示 了李子 品种集 
合上 的二元 关系。 这一关 系中的 有序对 (a, 的表 明品种 6 是品种 a 的传 粉者。 

将有序 对插入 该表表 示断言 某个品 种是另 一个品 种的传 粉者。 例如， 如果培 育岀新 品种， 
就可 能要向 该关系 中输入 与可以 给该新 品种传 粉的品 种以及 可以被 它传粉 的品种 有关的 事实。 
删除 某个有 序对， 就表示 收回某 个品种 可为另 一品种 传粉的 断言。 


品  种 

传粉者 

美丽 （ Beauty ) 

圣罗莎 （ Santa  Rosa) 

圣罗莎 （ Santa  Rosa ) 

圣罗莎 （ Santa  Rosa) 

伯班克 （ Burbank ) 

美丽 （ Beauty ) 

伯班克 （ Burbank ) 

圣罗莎 （ Santa  Rosa ) 

澳得罗 达 （ Eldorado  ) 

圣罗莎 （ Santa  Rosa ) 

澳得罗 达 （ Eldorado  ) 

威克森 （ Wickson ) 

威克森 （ Wickson ) 

圣罗莎 （ Santa  Rosa) 

威克森 （ Wickson ) 

美丽 （ Beauty ) 

图 7-23 

某 些李子 品种的 传粉者 

对关系 更一般 的操作 


除了 对示例 7.28 中的 李子品 种进行 插入、 删除和 查找这 3 种操作 可以提 供的信 息之外 ，我 
们可能 还需要 更多的 信息。 例如， 我 们可能 想问， “圣罗 莎可以 为哪些 品种传 粉？” 或 者“澳 
得罗达 能否给 美丽传 粉？” 某 些数据 结构， 比如 链表， 让我 们能以 执行这 3 种基 本词典 操作的 
速 度回答 这样的 问题， 只要不 是链表 对这些 操作很 低效。 
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基于定 义域元 素的散 列表无 助于回 答给定 了值域 元素并 必须找 到对应 定义域 元素的 问题， 
例如， “圣罗 莎可以 为哪些 品种传 粉？” 当然， 可以 对值域 元素应 用散列 函数， 不过这 样一来 
就不 好回答 “什么 品种可 以给伯 班克传 粉？” 这 样的问 题了。 还可 以对定 义域元 素和值 域元素 
的 组合应 用散列 函数， 不过 这样一 来对哪 种类型 的查询 都不能 高效响 应了， 只能 回答一 些类似 
“澳 得罗达 能否给 美丽传 粉？” 这样 的简单 问题。 

有多种 方式能 高效地 回答所 有这些 类型的 问题。 不过， 我们要 等到第 8 章谈 论关系 模型时 
才 会了解 到这些 技巧。 


我们定 义的查 找操作 接受变 量《 作为 参数， 查看第 一列， 寻 找所有 包含值 a 的有 序对， 并返回 
与之 关联的 值域值 集合。 也就 是说， 询问 “ 哪个品 种可以 给品种 a 传 粉？” 该问题 似乎是 最可能 
询问的 与该表 有关的 信息， 因为 如果我 们种植 了一棵 李树， 就必须 确认， 如果 它不是 自育的 ，就 
应该 在附近 种植传 粉者。 例如， 如 果调用 lookup  (Burbank) ， 预期答 案就是 {Beauty,  Santa  Rosa}。 

7.9.2 二元关 系的链 表实现 

如 果愿意 的话， 我们可 以将关 系中的 有序对 在链表 中链接 起来。 该链表 的单兀 都含有 一 '个 
定义域 元素、 一 个值域 元素， 以及一 个指向 下一个 单元的 指针， 就像 表示函 数的链 表单元 那样。 
插入 和删除 操作， 就像 6.4 节中讨 论过的 针对一 般集合 的插入 和删除 那样。 唯一的 小差别 就是这 
里 集合成 员的相 等性， 是通过 比较存 放定义 域元素 的字段 以及存 放值域 元素的 字段确 定的。 

这 里的查 找操作 要与我 们之前 遇到的 查找操 作有些 不同。 我们 必须沿 着链表 向下， 查找含 
某个 特定定 义域值 的单 元， 而且 必须将 与之相 关的值 域值组 成一个 链表。 下面的 示例将 会展示 
X 才 链表进 行查找 操作的 机制。 

♦ 示例 7.29 

假 设我们 想用链 表来实 现示例 7.28 中的李 子关系 。可 以将 RVARIETY 类型定 义为长 32 个字符 
的字 符串， 并将 类型为 RCELL  (relation  cell, 关系 单元） 的单元 定义为 结构体 

typedef  char  PVAEIETY  [32] ; 
typedef  struct  RCELL  *RLIST ; 
struct  RCELL  { 

PVARIETY  variety; 

PVARIETY  pollinizer; 

RLIST  next ; 

>； 

我们 还需要 一个单 元容纳 一个李 子品种 和指向 下一个 单元的 指针， 以构建 某给定 品种传 粉者的 
链表， 并以此 来回应 lookup 查询。 我们 将该类 型称为 PCELL， 并定义 

typedef  struct  PCELL  *PLIST; 
struct  PCELL  { 

PVARIETY  pollinizer; 

PLIST  next ; 

>； 

然 后可以 通过图 7-24 中的 函数定 义查找 操作。 

函数 lookup 接 受定义 域元素 a 和指向 有序对 链表第 一个单 元的指 针作为 参数。 通 过调用 
lookup  (a,  L) , 可以 对关系 i? 执行 lookup  (a) 操作， 这里的 Z 是指 向表 示关系 的链 表第一 个单 
元的 指针。 第 (1) 行和第 (2) 行都很 简单。 如 果链表 为空， 就返回 NULL， 因 为在空 链表中 不存在 
第一个 组分为 的有 序对。 
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PLIST  lookup (PVARIETY  a,  RLIST  L) 

{ 

PLIST  P; 

if  (L  ==  NULL) 
return  NULL; 

else  if  ( ! strcmp (L->var iety ,  a))  /*  L->variety  ==  a  */  { 
P  =  (PLIST)  malloc (sizeof (struct  PCELL) ) ; 
strcpy (P->pollinizer ,  L->pollinizer) ; 

P->next  =  lookup (a,  L->next) ; 
return  P; 

> 

else/*  a 不是 当前数 对的定 义域值 V 

return  lookup (a,  L - >next) ; 

} 


图 7-24 在 用链表 表示的 二元关 系中进 行查找 

难题就 是在链 表第一 个单元 的定义 域字段 variety 中找到 《 的情 况。 这 种情况 是在第 (3) 行 
检测， 在第 (4) 行至第 (7) 行得 到处 理的。 我 们在第 (4) 行创 建一个 PCELL 类 型的新 单元， 这 将成为 
我们要 返回的 PCELL 链 表中的 第一个 单元。 第 (5) 行会将 相关联 的值域 值复制 到新单 元中。 然后 
在第 (6) 行 我们会 对链表 Z 的尾 部递归 地调用 lookup。 该调用 的返回 值是指 向得到 的链表 中第一 
个单元 的指针 （ 如果 链表为 空则是 NULL  )， 它会 成为我 们在第 (4) 行中 所创建 单元的 next 字段。 
然后第 (7) 行要返 回指向 新创建 单元的 指针， 该单元 存放着 对应定 义域值 a 的一 个值 域值， 而且 
如果存 在对应 的其 他值 域值， 该 单元还 将链接 到存放 其他值 域值的 单元。 

最后一 种情况 是没有 在链表 Z 的第一 个单元 中找到 所需的 定义域 值《。 这时只 要在第 (8) 行对 
链表 Z 的尾 部调用 lookup, 并 返回该 调用返 回的任 何内容 即可。 

7.9.3 特征 向量法 

我们 看到， 对于 集合与 函数， 可以通 过创建 以某个 “ 全集” 的 元素为 索引的 数组， 并在数 
组 中放置 合适的 值来表 示这些 集合与 函数。 对 集合来 说， 合适 的数组 值就是 TRUE 和 FALSE, 而 
对函数 而言， 就是那 些可以 出现在 值域中 的值， 通常 还要加 上表示 “无” 的特 殊值。 

对二 元关系 来说， 可以 通过某 个较小 的声明 定义域 中的成 员作为 数组的 索引， 就像 处理函 
数时 那样。 不过， 不能 使用单 个值作 为数组 元素， 因为在 二元关 系中， 对 于某个 给定的 定义域 
值， 可 能有任 意数量 的值域 值与之 对应。 最好 是把与 某给定 定义域 值相关 联的所 有值域 值存入 
一个 链表， 然后 将该链 表的表 头作为 数组的 元素。 

♦ 示例 7.30 

我们用 这种组 织方式 再来处 理李子 品种的 例子。 正如 我们在 7.8 节中指 岀的， 在使用 特征向 
量表示 法时， 必须让 值的集 合固定 不变， 至少要 保证定 义域值 的集合 不变， 而对 链表或 散列表 
的表示 而言， 就不存 在这种 限定。 因此， 必须 重新将 PVARIETY 类型声 明为枚 举类型 

enum  PVARIETY  {Beauty ,  SantaRosa,  Burbank ,  Eldorado ,  Wickson} ; 

我 们可以 继续使 用示例 7.29 中定 义的表 示品种 链表的 PCELL 类型， 这样 就可以 将数组 定义为 

PLIST  Pollinizers[5] : 

也就 是说， 表示图 7-23 所示 关系的 数组， 是 用该图 中提及 的品种 作为索 引的， 而 与每个 品种关 
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联 的值， 都 是指向 其传粉 者链表 第一个 单元的 指针。 图 7-25 展示 了用特 征向量 法表示 出的图 7-23 
中的有 序对。 


Pollinizers 


Beauty 

SantaRosa 

Burbank 

Eldorado 

Wickson 


图 7-25 传粉者 关系的 特征向 量表示 


要 执行有 序对的 插人和 删除， 先要找 到恰当 的数组 元素， 并从那 里开始 沿着链 表行进 。至 
此， 链 表的插 入和删 除操作 就很平 常了。 例如， 如果我 们确定 威克森 不能充 分给澳 得罗达 传粉， 
就可 以执行 delete  (Eldorado, Wickson) 操作。 对应 Eldorado 的链表 表头在 Pollinizers 
[Eldorado] 中被 找到， 而且 要从那 里开始 沿着链 表向下 行进， 直到找 到存放 Wickson 的 单元并 
将其 删除。 

查找 操作更 是小菜 一碟， 只需 要返回 在合适 的数组 条目中 找到的 指针。 例如， 要 对查询 
lookup  (Burbank,  Pollinizers ) 作岀 回应， 只 要返回 链表 Pollinizers  [Burbank] 就 
行了。 


7.9.4 二 元关系 的散列 表表示 

我们可 以使用 只取决 于有序 对第一 个组分 的散列 函数， 将给 定的二 元关系 尺 存储在 散列表 
中。 也就 是说， 有序对 (a, 6) 会被放 置在散 列表元 咖) 中， 其中/ ? 是散列 函数。 请 注意， 这 种安排 
与针对 函数的 安排是 一模一 样的， 唯一 的差异 在于， 对二 元关系 而言， 一 个散列 表元中 可能包 
含多 个以给 定的值 a 作为第 一个组 分的有 序对， 而 对函数 而言， 它所 含的这 种有序 对决不 会超过 
一 '个。 

要插入 有序对 的， 就 要计算 ， 并对 含有该 成员的 散列表 元加以 检查， 以确保 (fl, 的尚 
未 岀现在 其中。 如 果还没 岀现， 就将 添 加到该 散列表 元对应 链表的 末端。 要删除 0,0， 
就要先 找到散 列表元 /z(a)， 然后查 找该有 序对， 如果链 表中存 在该有 序对， 就将其 删除。 

要执行 lookup  (a) ， 就还 是要先 找到散 列表元 然后 沿着该 散列表 元对应 的链表 向下行 
进 ，收集 所有在 第一个 组分为 a 的单 元中 出现的 I 图 7-24 中为 二元关 系的链 表表示 编写的 lookup 
函数也 可以用 于构成 散列表 表元的 链表。 

7.9.5 二元 关系操 作的运 行时间 

二 元关系 3 种 表示的 性能与 函数或 词典上 同样结 构的性 能差别 不大。 首先 考虑链 表表示 。尽 
管还 没有编 写过用 于插入 和删除 操作的 函数， 但我们 应该能 意识到 这些函 数会行 遍整个 链表， 
查找 目标有 序对， 然后在 找到它 的地方 停下。 在 长度为 〃的链 表上， 这 样的查 找平均 会耗费 
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的 时间， 因为 如果没 找到这 样的有 序对， 它肯定 是扫描 了整个 链表， 而 如果找 到了， 它 平均也 
要扫 描链表 的半数 单元。 

对查 找操作 来说， 图 7-24 中的检 测应该 能说服 我们， 该函数 所花的 时间是 0 ⑴加上 对链表 
尾 部的递 归调用 耗费的 时间。 因此， 如果链 表长度 为《， 我们 会执行 《次 调用， 总 共花费 0(«) 的 
时间。 

现 在考虑 一般化 的特征 向量。 操作 lookup  (a) 是最简 单的。 找到以 为下 标的数 组元素 ，可 
以 在该元 素处找 到所需 的答案 —— 满足 有序对 (a,b) 在该 关系中 的所有 M 且成的 链表。 我 们甚至 
不必 检验这 些元素 或复制 它们。 因此， 在使用 特征向 量时， 查找操 作花的 时间为 0 ⑴。 

另一 方面， 插人和 删除操 作就没 那么简 单了。 要插入 0,6)， 可以相 当容易 地找到 下标为 fl 
的数组 元素， 不过 必须查 找整个 链表， 以确保 0,6) 尚未 出现在 其中。 0这 样做所 需的时 间与链 
表 的平均 长度成 比例， 也就 是说， 与关 联某给 定定义 域值的 值域值 的平均 数量成 正比。 我们将 
该参 数称为 m。 另一 种看待 m 的方 式是， 它是关 系中有 序对的 总数量 《 除以不 同定义 域值的 数量。 
如 果假设 任一链 表与其 他链表 被查找 的可能 都是相 同的， 则 执行插 入或删 除 操作平 均需要 0(m) 
的 时间。 

最后来 考虑散 列表。 如果在 关系中 有《 个有 序对， 并 且散列 表中有 5 的散列 表元， 就 能预期 
平均每 个散列 表元中 有《/5 个有 序对。 不过， 这里还 是要引 人参数 m。 如果存 在《加 个不 同的定 
义 域值， 那么 至多有 个散列 表元可 以是非 空的， 因 为对应 有序对 的散列 表元只 由定义 域值决 
定。 因此， 不管 5 是 多少， m 是 散列表 元平均 大小的 下界。 因为 也是 下界， 所以 执行这 3 种操 
作其中 之一所 花的 时间是 。 


♦ 示例 7.31 

假设有 一个含 1000 个有 序对的 关系， 这些 有序对 分布到 100 个 定义域 值中。 那 么每个 定义域 
值会有 10 个值域 值与之 关联， 也 就是说 m=  10。 如 果使用 1000 个散列 表元， 也就是 5=  1000, 那 
么 m 要大于 n/B, 也就是 1， 这样 就可以 预期我 们实际 可能查 找的散 列表元 （ 因 为表元 编号为 ；Ka)， 
其中 是关系 中的某 个定义 域值） 平均 含有约 10 个有 序对。 事 实上， 每个散 列表元 中平均 所含有 
序对数 量要略 多于这 个值， 因为不 同的定 义域值 A 和《2 在经过 散列 之后， 得到的 咖0 和 咖2) 可 
能恰巧 是同一 个散列 表元。 如 果选择 5=  100, 那么 m  =  «/5=10, 还 是可以 预期每 个可能 查找的 
散 列表元 含有约 10 个 元素。 正如 刚刚提 到的， 实 际数字 可能要 略大于 10, 因为可 能岀现 两个或 
多 个定义 域值散 列到同 一散列 表元的 巧合。 

7.9.6  习题 

(1)  使 用示例 7.29 中的 数据类 型编写 函数， 接 受传粉 者的值 6 以及由 品种- 传粉者 有序对 组成的 链表作 
为 参数， 并 返回由 可以被 M 专粉 的品种 组成的 链表。 

(2)  使 用示例 7.29 中的 假设， 编 写用来 处理品 种-传 粉者有 序对的 (a) 插入； （b) 删除 程序。 

(3)  为 用示例 7.30 所述 的向量 数据结 构表示 的二元 关系编 写执行 (a) 插入； （b) 删除； （c) 查找 操作的 函数。 
在插 人有序 对时， 不要忘 了检查 相同的 有序对 是否已 经岀现 在该关 系中。 

(4)  设 计散列 表数据 结构， 用来 表示构 成本节 中大量 示例的 传粉者 关系。 编 写执行 插入、 删除 和查找 
操作的 函数。 


① 也可以 在不考 虑该有 序对是 否已经 出现的 情况下 直接插 入该有 序对， 不 过这样 就会同 时带来 6.4 节 中讨论 过的允 
许重复 的链表 表示所 具有的 优点和 缺点。 
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(5)  * 通过 对链表 L 的长 度进行 归纳， 证实 lookup 返回 了满足 有序对 (a,b) 在 Z 中的所 有元素 M 且成 的链 
表， 从而 证明图 7-24 中的 lookup 函数可 以正常 工作。 

(6)  *设 计数据 结构， 使 其执行 插入、 删除、 查 找和反 向查找 （ inverseLookup  ) 操作 的平均 时间可 
以达到 0(1) 的 水平。 反向 查找操 作是接 受值域 元素， 并找 到与之 关联的 定义域 元素。 

(7)  在本节 以及前 面的几 节中， 我们定 义了一 些具有 插入、 删 除和查 找操作 的新抽 象数据 类型。 不过， 
这些操 作与对 词典的 同名操 作稍有 差异。 绘制 表格， 分 别记下 词典、 函数 （如 7.8 节所 描述） 和关 
系 （如 本节所 描述） 可能 的抽象 实现， 以 及支持 这些抽 象实现 的数据 结构。 对每种 实现， 给岀各 
操作 的运行 时间。 


对 函数和 关系的 “词典 操作” 

有 序对的 集合可 以视为 集合、 函 数或是 关系。 对每 种情况 来说， 我 们都已 经定义 了合适 的插入 、删 
除 和查找 操作。 这些操 作有着 不同的 形式。 多数情 况下， 操作会 同时取 有序对 的定义 域元素 和值域 元素。 
不过， 有 时候只 有定义 域元素 被用作 参数。 下表总 结了这 3 种操 作在使 用中的 差异。 


有序 对集合 

函  数 

关  系 

插人 

定义域 和值域 

定义域 和值域 

定义域 和值域 

删除 

定义域 和值域 

仅 定义域 

定义域 和值域 

查找 

定义域 和值域 

仅 定义域 

仅 定义域 

7.10 二元 关系的 一些特 殊属性 

在本 节中， 我 们将考 虑某些 实用的 二元关 系所具 备的一 些特殊 属性。 首先要 定义一 些基本 
属性： 传 递性、 自 反性、 对称性 与反对 称性。 这些结 合起来 就形成 了几类 常见的 二元关 系：偏 
序 关系、 全 序关系 和等价 关系。 

7.10.1 传递性 

设尺 是定义 域乃上 的二元 关系。 如 果只要 和 Me 为真， 就有 Me 也 为真， 就 说关系 i? 是传 
递的。 图 7-26 展示 了传递 性这种 属性。 就像 它在关 系图中 岀现的 那样， 只要从 a 到 6 以及从 6 到 c 
的虚 线箭头 出现在 图中， 那么从 ^到^: 的实线 箭头也 一定会 出现在 图中。 谨记， 传 递性与 本节中 
要定 义的其 他属性 一样， 都是关 于整个 集合的 属性。 只有 3 个 特定的 定义域 元素满 足该属 性是不 
够的， 声明 的定义 域乃中 所有的 三元组 a、 K  c 都必须 满足。 


图 7-26 传递性 成立的 条件要 求如果 和 Wfc 的 弧在表 示关系 的图中 岀现， 那 么弧冰 c 也 要岀现 

♦ 示例 7.32 

考 虑一下 整数集 Z 上的  <  关系。 也就 是说， <  是满足 a 小于 6 的整数 有序对 (fl, 的 的集合 。关 
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系 〈是传 递的， 因 为如果 且 6<c， 就可知 a<c。 同样， 整数上 的关系 $、 > 和彡 也都是 
传 递的。 这 4 种比 较关系 在实数 集合上 也同样 具有传 递性。 

不过， 考虑一 下整数 （或 者是 实数） 上的 # 关系。 该 关系就 不具传 递性。 例如， 设 a 和 c 都 
是 3, 并设 6 是 5。 这样 ad 与 都 为真。 如 果该关 系是传 递的， 那么 应该有 不过这 
就是说 3  #3, 显然是 错的。 所以可 以得出 # 是不 具传递 性的。 

再举 个传递 关系的 例子， 考 虑一下 G， 也就 是子集 关系。 我们 也许想 将该关 系视为 所有满 
足 S 为 r 的子 集的 集合有 序对仏 7) 组成的 集合， 但想象 一下， 有这样 的集合 就会再 次将我 们引向 
罗素 悖论。 不过， 假设有 “ 全集”  t/， 就 可以设 S； 是集合 有序对 的结合 

{(m  |  sc  r 且  r  g  t/} 

那么 ^ 就是 t/ 的幂集 P(t/) 上的 关系， 而我们 可以将 s； 当 作子集 关系。 

例如， 设 t/={l,2}。 那么^ 2} 就是 由如图 7-27 所示的 9 个以 7) 有 序对组 成的。 因此， ^ 刚 
好 含有满 足第一 个组分 是第二 个组分 的子集 （不 一定 是真子 集）， 而且二 者皆为 {1,2} 的 子集的 
那些有 序对。 

不 管全集 t/ 是 什么， 都很容 易检验 ^ 是 传递的 。如果 』 G  5 而且 5  G  C ， 那么 肯定有 A^C0 
原因 在于， Xt4 中 的每个 X， 我 们知道 jc 也在 5 中， 因为 因为 jc 在 5 中， 我 们知道 jc 也在 C 中， 
因为 5GC。 因此^ 中的每 个元素 也都是 C 中的 元素。 所以 


S 

T 

0 

0 

0 

{1} 

0 

0 

{1， 2} 

{1} 

{1} 

{1} 

{1， 2} 

{2} 

{1， 2} 

{1， 2} 

{1， 2} 

图 7-27 关系 — 11>2| 中的 有序对 


7.10.2 自反性 

有些二 元关系 还具有 这样的 属性， 就是对 声明的 定义域 中的每 个元素 a ， i? 中都包 含有序 
对 0,6)， 也就 是都有 如 果这样 的话， 就说 i? 是自 反的。 图 7-28 展 示了某 自反关 系的图 ，其 
声明的 定义域 中每个 元素上 都有个 循环。 该图 中除了 这些循 环外还 可能有 其他的 箭头。 不过， 
当 前定义 域中每 个元素 都有循 环是不 够的， 必须 是声明 定义域 中每个 元素都 有循环 才行。 


图 7-28 自 反关系 i? 对其声 明定义 域中每 个元素 X 来 说都有 
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♦ 示例 7.33 

实数集 合上的 关系多 就是自 反的。 对每 个实数 《 而言， 都有 a 多 同样， < 是 自反的 ，而 
这两 种关系 在整数 集合上 也是自 反的。 不过， <和> 就不 是自 反的， 因 为至少 有一个 a 的值 可以 
使 和 a<a 不 成立， 其实， 对 所有的 a 来说， 和 都 是不成 立的。 

示例 7.32 中定 义的子 集关系 ^ 也是自 反的， 因为 对任意 集合』 而言， 都有 不过， 
有 着相似 定义， 包 含满足 ret/ 和 scr 的 有序对 以7) 的关系 Gy —— 表示 ^ 是 r 的真子 集的关 
系 —— 就 不是自 反的。 原因 在于， JCJXf 某些 J  ( 事实 上是对 所有的 J) 来说不 成立。 


7.10.3 对称 性与反 对称性 

设尺是 某二元 关系。 正如 7.7 节 的习题 (7) 所 定义的 那样， 尺 的逆是 指将及 中各有 序对的 组分调 
换位 置后形 成的新 有序对 组成的 集合。 也就 是说， i? 的逆， 记作 iT1， 就是 

{(b,a)\(a,b)  eR} 

例如， >是<  的逆， 因为刚 好当^ 时有 a>6。 同样， >是< 的逆。 


图 7-29 对 称性要 求如果 a 仙， 就也有 

如果 i? 是 它自己 的逆， 就说 它是对 称的。 也就 是说， 如 果只要 ai^， 就也有 W?a， 就说 i? 是对 
称的。 图 7-29 展示 了在表 示关系 的图中 对称性 是什么 样的。 如 果出现 了向前 的弧， 就肯 定还要 
有向后 的弧。 

如 果只有 a  =  6 在 时才有 和 都 为真， 我 们就说 A 是反对 称的。 请 注意， 在反对 称关系 
中， 都 不必有 对任 意特定 a 来说 为真。 不过， 反 对称关 系也可 以是自 反的。 图 7-30 展 示了在 
关 系图中 反对 称的条 件是怎 样的。 


从不 


可选的 


图 7-30 反 对称关 系不能 具有涉 及两个 元素的 循环， 不 过单一 元素上 的循环 是可以 岀现的 

♦ 示例 7.34 

整数集 或实数 集上的  <  关系就 是反对 称的， 因为， 如果 a 彡 6 且 6 彡 《， 就 肯定有 a=^。 
关系  <也 是反对 称的， 因为 在任何 条件下 和 都不可 能同时 成立。 同样， 彡和  >  是反 
对 称的， 示例 7.32 中讨论 的子集 关系^ / 也是。 

不过， 要 注意到  < 不是对 称的。 例如， 3 彡 5, 但 5 彡 3 是不成 立的。 同样， 上一段 中提到 
的其他 几种关 系也都 不是对 称的。 

整数上 的# 关系 就是对 称关系 的一个 例子。 也就 是说， 如果#6, 就 一定有 6矣《。 
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属性 定义中 的陷阱 

正 如前文 已经指 出的， 属性的 定义都 是针对 一般情 况的， 适用于 定义域 中的所 有元素 。例 
如， 要 让声明 定义域 乃 上的 某关系 尺是自 反的， 就需要 对每个 a e Z) 都有 对某个 a 成立是 
不 够的， 而且说 某个关 系对某 些元素 自反而 对另一 些元素 不自反 也是说 不 通的。 就算乃 中只有 
一个 a 让 不 成立， 也说明 尺 不是自 反的。 因此， 自反性 可能取 决于定 义域， 而且取 决于关 
系 i?。 

还有， 像 传递性 —— 若 aRbUbRc, 则 Me —— 这 样的条 件具有 “若 J 则 的形式 。 请 记住， 
要满足 这样的 命题， 既 可以让 5 为真， 也可 以令』 为假。 因此， 对某个 给定的 三元组 《、 6 和 c， 
只要 MZ) 为假， 或 Me 为假， 或 Me 为真， 就 满足传 递性的 条件。 最极 端的情 况是， 空关 系是传 
递的、 对 称的而 且反对 称的， 因为 “若” 的条件 从不能 满足。 不过， 空关系 不是自 反的， 除非 
声 明的定 义域为 0。 


7.10.4 偏序 和全序 

偏序是 传递且 反对称 的二元 关系。 如果除 了传递 性和反 对称性 之外， 某关系 能让每 个定义 
域 兀素对 都是可 比的， 就说 该关系 是全序 关系。 也就 是说， 如果 尺是全 序的， 而且 a 和 6 是其定 
义域 中的任 意两个 元素， 则要么 为真， 要么 bRa 为真。 请 注意， 每个全 序关系 都是自 反的， 
因为 可以设 a 和 6 是相 同的 元素， 这样 可比性 的要求 就告诉 我们有 

♦ 示例 7.35 

整数 或实数 上的算 术比较 < 和&都 是全序 关系， 因 此也都 是偏序 关系。 请 注意， 对 任意的 
a 和办 来说， 要么 a 彡 b  , 要么 b 彡 a ， 不过当 a  =  6 时刚好 两者都 成立。 

算 术比较 <和> 都是 偏序 关系而 非全序 关系。 尽 管它们 是反对 称的， 不 过不是 自反的 ，也 
就是说 和 a>a 都不 成立。 

对应某 个全集 t/ 的 2〃 上的子 集关系 ^和^都 是偏序 关系。 我 们已经 知道， 它们是 传递且 
反对 称的。 不过， 只要 t/ 中至少 有两个 成员， 这些关 系就不 是全序 关系， 因为这 样一来 就有不 
可 比的元 素了。 例如， 设 t/={l,2}。 那么 {1} 和 {2} 都是 [/的 子集， 但这两 个集合 之间谁 也不是 
谁的 子集。 

大家 可将全 序关系 i? 视作一 个如图 7-31 所 示的线 性元素 序列， 其 中只要 对不同 的元素 a 和办 
有 aRb， a 就岀 现在这 条线上 6 的 左侧。 例如， 如果 i? 是整数 上的彡 关系， 那么 轴上的 元素就 
是…, -2, -1,0, 1,2, …。 如果 是实数 上的彡 关系， 那么这 些点就 对应实 数轴上 的点， 就像 这根轴 
是把 无限长 的尺子 那样， 如 果实数 X 非负， 那么 X 就是在 0 标 记右侧 X 个单 元处， 而如果 X 为负 ，那 
么 它就在 0 标 记左侧 -X 个单 元处。 

如果 是偏序 关系而 非全序 关系， 还 可以将 定义域 中的元 素画成 这样： 如果 那么 a 在办 
的 左边。 不过， 因 为可能 存在不 可比的 元素， 所以不 一定能 做到把 所有元 素画在 一条轴 上从而 
使关系 意味着 “在左 边”。 


0^2,  ^3  ^71 

图 7-31 表示 a2,  a3 ，…， ％上 的 全序关 系的图 
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♦ 示例 7.36 

图 7-32 展 示了偏 序关系 S{U;3} 。 我们 已经将 该关系 绘成了 简化图 （ reduced  graph  )， 在图中 
省 略了可 由传递 性指出 的弧。 也就是 说要有 ss{1,2,3}r， 就要 满足以 下任一 条件。 

(1)  =  7 。 

(2)  存在从 ^ 到 扣 勺弧。 

(3)  从 ^ 到 7 之间有 一条由 两条或 多条弧 构成的 路径。 

例如， 我 们知道 0gu，3}{l,3}， 因 为存在 路径从 0 到 {1} 再到 {1,3}。 


{1}  - -{1,2} 


-{1,2,3} 


7.10.5 等 价关系 

等价 关系是 自反、 对称 且传递 的二元 关系。 这种 关系与 之前的 示例中 看到的 偏序关 系和全 
序关 系差别 很大。 事 实上， 偏序 关系从 不可能 是等价 关系， 除非在 声明的 定义域 为空， 或者声 
明定 义域中 只有一 个元素 a 而且该 关系是 {(a, a)} 这 样一些 微不足 道的情 况下。 

♦ 示例 7.37 

像 整数上 的彡这 样的关 系就不 是等价 关系。 虽然 它是传 递且自 反的， 但 它不是 对称的 。如 
果 a  <  6 ， 除非 a=b  , 否则是 不会有 办 <  a 的。 

举 个等价 关系的 例子， 设 尺 是由那 些满足 是 3 的整数 倍的整 数有序 对(《 ，的 组成的 。比 
如， 3R9, 因为 3-9  =  -6  =  3x(-2)。 还有 5i?(-4) ， 因为 5-(-4)  =9  =  3x3 。 不过， (1，2) 就 不在穴 
中， 或者 可以说 “li?2 不成 立”， 因为 1-2  =  -1， 它不是 3 的整 数倍。 可以按 照如下 方式展 示尺是 
等价 关系。 

(l)i? 是自 反的， 由 于对任 意整数 《 都有 这 是因为 a-a 为 0， 是 3 的整 数倍。 

⑺ 尺 是对称 的^ 如果 是 3 的整 数倍， 比 方说是 3c， 其中 c 为某 整数， 那么 就是 -3c ， 
因 此也是 3 的整 数倍。 

(3) 尺是传 递的。 假设 而且 Mc， 也就 是说， 是 3 的 倍数， 比 方说是 3d， 而 b-c 也是 3 
的 倍数， 比 方说是 3e。 那么 

a  -  c  =  (a  -  b)  +  (b  -  c)  =  3d  +  3e  =  3(d  +  e) 

因此 fl-c 也是 3 的 倍数。 由 和 Me 得出 Mc， 这表示 是传 递的。 

再举个 例子， 设*5 是世界 城市的 集合， 而 r 是由 定义的 关系， 其中 a 和 6 是由 公路相 连的， 
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也就 是说， 可以从 《 驾车 到达乂 因此， 有序对 （多 伦多， 纽约） 是在 r 中， 不过 （檀 香山， 安克 
雷奇） 就不在 r 中。 可以说 r 是等价 关系。 

7 是自 反的， 因 为每个 城市都 是连接 到它自 己的。 7 也是对 称的， 因 为如果 《 连接到 乂 那么 
办也 连接到 a。 r 还是传 递的， 因 为如果 《 连接 到纟， 且纟 连接到 c， 那么 《 是连 接到 c 的， 如果 没有更 
短路径 的话， 可 以通过 6 从 行驶到 C。 

7.10.6 等价类 

另一 种看待 等价关 系的方 式是， 它将子 集的定 义域分 成了等 价类。 如果 是定 义域乃 上的等 
价 关系， 那么可 以将乃 分为等 价类， 使得下 列命题 成立。 

(1)  每个 定义域 元素刚 好在一 个等价 类中。 

(2)  如果 那么 a 和 6 在相同 的等价 类中。 

(3)  如果 不 成立， 那么 a 和 6 在不同 的等价 类中。 

♦ 示例 7.38 

考 虑示例 7.37 中 的关系 i?， 其中当 a -6 是 3 的倍 数时有 —个等 价类是 刚好被 3 整 除的整 
数的 集合， 也就 是除以 3 余数为 0 的那些 整数的 集合。 该类为 { -3,0, 3, 6,  —  }。 第二个 是除以 3 
时 余数为 1 的整数 的集合 ，也就 是{ …, -2, 1,4,7, "七 最后 一个类 是除以 3 时 余数为 2 的 整数的 集合， 
该类为 {•••,-：!, 2,5, 8,-}。 这 些类将 整数集 划分成 3 个不 相交的 集合， 如图 7-33 所示。 

请 注意， 当 两个整 数除以 3 的 余数相 同时， 它 们的差 就能被 3 整除。 例如， 14  =  3x4  +  2 而 
5  =  3xl  +  2， 因此 14-5  =  3x4-3x1  +  2-2  =  3x3 ， 于 是可知 14i?5。 另一 方面， 如 果两个 整数除 
以 3 的余数 不同， 它 们的差 就肯定 不能被 3 整除。 因此， 来 自不同 等价类 的整数 （比如 5 和 7) 之 
间， 就 不具备 关系。 


要为等 价关系 构建等 价类， 设 ⑷ 是满足 的元素 6 的 集合。 例如， 如 果等价 关系是 
示例 7.37 中我 们称为 的那个 ，那么 就 是除以 3 时 余数为 1 的整数 的集合 ，也 就是说 
={".，-2,l,4,7，".}0 

请 注意， 如果让 《 对定义 域的各 元素而 言是不 同的， 通常会 多次得 到同样 的类。 其实， 当有 
aRb^ , 就有 class{a)  =  class(b)。 要知道 为什么 ，可 以假设 c 在 cAzw(a) 中。 则 根据类 的 定义有 aRc0 
因为 给定了 根据对 称性有 而 根据传 递性， 由 Ma 和 可以 得岀祕 c。 而祕 c 就说明 c 
在 cAzw ⑼中。 因此， cAzw(a) 中的 每个元 素都在 cAxw ⑼中。 因为 同样的 推理告 诉我 们， 只要 aRb ， 
那么 cAzw ⑼ 中的每 个元素 也都在 cAzw ⑷中， 所以 我们可 以得岀 结论： cto 咖) 和 cAzwp) 是相 同的。 

不过， 如果 cto 咖) 和 cto 灿) 不同， 则这 些类不 可能有 相同的 元素。 作 相反的 假设， 那么就 
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肯定 有某个 c 同时在 和 cAxw ⑼中。 而根据 之前的 假设， 知道有 ai?c 和 W?c。 根据对 称性， 
有 cRb。 根据传 递性， 可由 和 c 拙得到 a 拙。 不过我 们刚证 明了， 只要 成立， 贝1 JcAxw(fl) 和 
⑻是相 同的。 而 这里假 设这些 类是不 同的， 因此就 得出了 矛盾。 所以 ，假 设的 出现在 
和 cAxw ⑼的 交集中 的元素 C 不可 能 存在。 

还要 看到： 每 个定义 域元素 都在某 个等价 类中。 特 别要说 的是， a 总是在 c/aa ⑷中， 因为 
自 反 性告诉 我们有 

我们现 在就可 以得岀 结论， 等价 关系将 其定义 域划分 为不相 交的等 价类， 而 且将每 个元素 
刚好放 在一个 类中。 示例 7.38 就展示 了这一 现象。 

7.10.7 关系 的闭包 

对二元 关系的 常见运 算还有 一种， 就是 取某个 不具有 自反性 （或对 称性、 传 递性） 的 集合， 
在为其 添加尽 可能少 的有序 对后使 得新形 成的关 系具有 自反性 （ 或对 称性、 传递 性)。 得 到的关 
系 就称为 原关系 的自反 （或 对称、 传递） 闭包。 

♦ 示例 7.39 

我 们在图 7-32 中讨 论过简 化图。 虽 然表示 的是传 递关系 g1A3}， 但是 只画岀 了与该 关系中 
有 序对的 某个子 集对应 的弧。 不 过通过 应用传 递法则 推断出 新的有 序对， 直到不 能推断 出新的 
有 序对， 就可 以重建 完整的 关系。 例如， 我们看 到存在 有序对 和 ({1,3}，{1,2,3})相对 
应的弧 ，因 此传 递法则 就告诉 我们 有序对 ( {1},{1 ,2,3 }) 也肯定 在该关 系中。 而该有 序对与 有序对 
(0,{1}) —起， 又说明 (0，{1, 2, 3}) 也 在该关 系中。 除此 之外， 还必 须加上 “自 反的” 有序对 (公 )， 
其中 S 是 {1,2, 3} 的各个 子集。 这样 一来， 就重建 了关系 中的 所有有 序对。 

另 一种实 用的闭 包运算 是拓扑 排序， 我们接 受某个 偏序， 并向 其添加 元组， 直到它 成为全 
序。 尽 管二元 关系的 传递闭 包是唯 一的， 但常常 有多个 全序包 含某一 给定的 偏序。 我们 将在第 9 
章中 了解到 一 '种 特别高 效的拓 扑排序 算法。 现在， 先考虑 一 '个展 7K 拓扑 排序实 用性的 例子。 

♦ 示例 7.40 

人们 常将生 产过程 中必须 执行的 一系列 任务表 示为一 套必须 服从的 “优先 级”。 举个 简单的 
例子， 在 给左脚 穿鞋之 前必须 先给左 脚穿上 袜子， 而在 穿上右 脚的鞋 之前要 先穿上 右脚的 袜子。 
不过， 这其 中没有 其他必 须遵守 的优先 级了。 我们 可以用 由两个 有序对 (左 袜， 左鞋) 和 (右 袜， 
右鞋) 组成 的集合 来表示 这些优 先级。 该集 合是个 偏序。 

可以将 该集合 扩展为 6 个 不同的 全序。 其 中一个 全序是 先穿好 左脚的 鞋袜， 该 关系是 含以下 
10 个有 序对的 集合。 

(左 袜， 左袜） （左 袜， 左鞋） （左 袜， 右袜） （左 袜， 右鞋） 

(左 鞋， 左鞋） （左 鞋， 右袜） （左 鞋， 右鞋） 

(右 袜， 右袜） （右 袜， 右鞋） 

(右 鞋， 右鞋） 

可 将该全 序视作 如下线 性排列 

左抹^ ■左鞋 一右抹 —右鞋 
先 穿好右 脚的鞋 袜有着 与之相 似的过 程。 
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由 原始的 偏序还 可以得 到其他 4 种 全序， 其 中我们 要先穿 袜子再 穿鞋， 它们可 由以下 线性排 
列表 7K: 

左抹— > •右抹 —左鞋 一右鞋 
左抹^ •右抹 ^ •右 鞋 一左鞋 
右抹 —左抹 —左鞋 一右鞋 
右抹^ •左抹 ^ •右 鞋 一左鞋 

闭包 的第三 种形式 是找到 含有某 给定关 系的最 小等价 关系。 例如， 公 路图表 示的关 系是由 
公路 路段直 接连接 而不含 中间城 市的城 市对组 成的。 要确定 由公路 连接的 城市， 可以利 用自反 
性、 传递 性和对 称性推 断岀由 某些基 础道路 序列连 接的城 市对。 闭 包的这 种形式 称为找 岀图中 
的 “连通 分支”  ( connected  component ), 我们 将在第 9 章讨论 一种 解决 该问题 的高效 算法。 

7.10.8  习题 

(1)  给 岀对某 一声明 定义域 自反， 但 对另一 声明定 义域不 自反的 关系。 请 记住， 对作为 某关系 i? 可能 
的定 义域的 D 而言， D 必 须包含 岀现在 i? 的有 序对中 的每个 元素， 但 它还可 以包含 更多的 元素。 

(2)  ** 关系 ^{1A3} 中有多 少个有 序对？ 考虑 一般的 情况， 如果 _«个 元素， 那么 ^；中 有多少 个有序 
对？ 提示： 试 着从元 素较少 的情况 猜测该 函数， 比如含 两个元 素的情 况下有 9 个有 序对， 如图 7-27 
所示。 然后通 过归纳 证明自 己的猜 测是正 确的。 

(3)  考虑定 义域在 4 字母 字符串 上的二 元关系 i?， 它是由 M 淀 义的， 其 中堤由 字符串 s 的字母 向左循 
环移动 一位形 成的。 也就 是说， abcdRbcda , 其中 a、 6、 c、 都是 单独的 字母。 确定 是否为 (a) 
自 反的； （b) 对 称的； （c) 传 递的； （d) 偏序， 和 （或 ）（e) 等价 关系。 为每种 情况给 岀简要 论证或 
是 反例。 

(4)  考 虑习题 (3) 中的 4 字母字 符串定 义域。 设* S 是应用 0 次 或多次 i? 组成 的二元 关系。 因此， abcdSabcd, 
abcdSbcda ,  abcdScdab , 巨 jibcdSdabc 。 换句话 说， 字符 串与它 经过任 意循环 位移后 形成的 字符串 
具有 ^ 关系。 对关系 MU 答习题 (3) 中 提出的 5 个 问题， 并 且每种 情况都 要给岀 论证。 

(5)  * 以下 “ 证明” 有何 错误？ 

(非） 定理： 如果二 元关系 是对 称且传 递的， 那么 i? 是自 反的。 

(非） 证明： 设^是 i? 定 义域中 的某个 成员， 取某 个满足 x 办的 >  根据对 称性， 有: 1必。 而根 据传递 
性， x 办和 可 以得岀 xitc。 因为 x 是 i? 定义域 的任一 成员， 所以 证明了 i 对 i? 定义 域中的 每个元 
素都 成立， 也就 “ 证明”  了 i? 是自 反的。 

(6)  给岀 声明定 义域为 {1,2,3}, 具有如 下属性 的二元 关系的 例子。 

(a)  自反且 传递， 但不 对称。 

(b)  自反且 对称， 但不 传递。 

(c)  对称且 传递， 但不 自反。 

(d)  对 称且反 对称。 

(e)  自反， 传递， 而 且是全 函数。 

(f)  反 对称， 而且是 - 对应。 

(7) * 如果 为关系 使用简 化图， 其 中集合 _«个 元素， 那么与 使用完 全图相 比要节 省多少 条弧？ 

(8)  当 只有 一个元 素时， 是否为 偏序或 全序？ 当 中没 有元素 时呢？ 

(9)  * 从 《  =  1 开始， 通过对 《 的归纳 证明， 如果有 《个 有序对 aWai 、 axRa2 、…、 an^Ran, 而 且如果 是 
传递的 关系， 那么有 也 就是要 证明， 如果表 示传递 关系的 图中存 在任一 路径， 就存 在一条 
从该路 径开头 到该路 径结尾 的弧。 

(10)  找 岀包含 有序对 (a,b) 、 (a,c)  ,  (t/，e) 和 (b,f) 的最 小等价 关系。 

(11)  设 i? 是整数 集上满 足如下 条件的 关系， 若 a 和 6 是互 不相同 的而且 有除了  1 之 外的公 约数， 则 a 拙。 
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确定 i? 是否 为⑻自 反的； （b) 对称 的； （c) 传 递的； （d) 偏序和 （或 ） （e) 等价 关系。 

(12)  存在 某树： T 所有 节点 上的关 系柊， 其中 当且仅 当在树 r 中 a 是 6 的祖 先时有 , 针 对该关 系重复 
习题 (11) 中的 练习。 

(13)  存 在某树 7 所有 节点上 的关系 \  , 其中 当且仅 当在树 T 中 a 在 b 的左 侧时有 ， 针 对该关 系重复 
习题 (12) 中的 练习。 

7.11 无限集 

人们 在计算 机程序 中要实 现的所 有集合 都是有 限的， 如果这 些集合 不是有 限的， 就 没法将 
它 们存储 在计算 机的内 存中。 而在数 学中， 很 多集合 （比 如整数 集或实 数集） 都是 无限的 。这 
些 观点似 乎直观 清晰， 不过 有限集 和无限 集到底 有何区 别呢？ 

有限集 和无限 集之间 的区别 是相当 令人惊 讶的。 有限集 的元素 数量与 它任一 真子集 的元素 
数量都 不同。 回想 一下， 在 7.7 节中， 我 们说过 可以利 用两个 集合间 一一 •应 的存 在得出 它们是 
等势的 ( equipotent ), 也就 是说， 它们有 着相同 数量的 成员。 

如果取 一个如 S  =  {1,2, 3, 4} 这样 的有限 集及其 任意真 子集， 如7=  {1,2,3}， 那 么在这 两个集 
合 间没办 法找到 —— 对应。 例如， 可以把 s 中的 4 映射到 r 中的 3， 把 s 中的 3 映射到 r 中的 2， 把 s 
中的 2 映射到 r 中的 1， 但 接着就 找不岀 r 中的成 员来和 s 中的 1 相 关联。 其他 建立从 的 —— 对 
应的尝 试也一 定同样 失败。 

大家 直观上 可能会 认为这 一点对 任意集 合来说 都应该 成立， 一 个集合 在丢掉 其中一 个或多 
个 元素后 怎么可 能还具 有相同 的元素 数呢？ 考 虑一下 自然数 （非负 整数） 集 N 和 N 去掉 0 后得到 
的真 子集， 称该 集合为 N-{0}， {1,2,3,  —  }。 那 么考虑 一下从 N 到 A/- {0} 的 —— 对应 F, 其中 
F(0)  =  1 ,  F(l)  =  2,  一般 来讲， F(0  =  ^+lo 

惊人 的是， F 是从 N 到 N-{0} 的 —— 对应。 对 N 中的 每个 /， 至多 有一个 / 满足 F©=/， 所以 F 是 
个 函数。 其实， 刚好就 有一个 这样的 /， 即 /_+1， 使得 —— 对应的 定义中 的条件 (1) ( 见 7.7 节） 得到 
满足。 对 N-{0} 中 的每个 /， 存 在某个 / 满足 F(/)=y， 也 就是， i=j-U 因此 一一 X 才应 的定义 中的条 
件 (2) 也得到 满足。 最后， 在 N 中不 存在 两个不 同的数 字心和 4 使得邱 。和^⑹ 都为 /， 因为那 样的话 
6+1 和 4+1 都为 /•， 这样一 来就得 出^二匕 进而 就得出 与其 真子集 N-  {0} 之间 一一 X 才应的 结论。 


无 限酒店 


为了帮 助大家 理解从 0 开 始和从 1 开始 有着同 样多的 数字， 可以想 象一家 酒店， 它有 着无限 
个 房间， 分别 编号为 0、 1、 2， 等等。 对任 意整数 而言， 都存 在一个 以该整 数作为 房号的 房间。 
在某 一特定 时间， 每 个房间 里都会 有一名 顾客。 一只袋 鼠来到 前台开 房间。 前台 接待告 诉它： 
“我们 这里不 接待袋 鼠。” 等 一下， 这跑 题了。 事 实上， 前台接 待按 照如下 方式给 袋鼠腾 出了房 
间。 他让 0 号房 间的客 人住进 1 号房， 让 1 号 房的客 人住进 2 号房， 等等。 所 有的旧 客都还 是有一 
间房 可住， 而现在 0 号 房是空 房了， 而这只 袋鼠就 住进了 0 号房。 这种 “ 戏法” 之 所以能 奏效， 
是 因为从 1 开始编 号的房 间与从 0 开始编 号的房 间其实 是同样 多的房 间。 


7.11.1 无限 集的正 式定义 


数学 家们认 可的定 义是， 无限 集是指 自身与 其至少 一个真 子集之 间存在 一一 对应的 集合。 
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在一些 极端例 子下， 无 限集和 其某个 真子集 之间可 以存在 一一 对应 关系。 

♦ 示例 7.41 

自然 数集合 与偶自 然数集 合是等 势的。 设 F(i)  =  2i。 那么 就是 一一 对应， 它将 0 映射到 0,  1 
映射到 2,  2 映射到 4,  3 映射到 6, 而一般 来讲， 就 是将每 个自然 数映射 到一个 唯一的 自然数 ，它 
的 两倍。 

同样， Z 和 N 是同样 大小的 集合， 也就 是说， 非负 整数和 负整数 一起， 与非负 整数是 一样多 
的。 设对 所有的 有 F(i)  =  2i， 并设对 所有的 z_<0, 有 F({)  =  -2i-1。 那么 0 映射到 0,  1 映射 
到 2,  -1 映射到 1， 2 映射到 4,  -2 映射到 3, 等等。 每个整 数都被 映射到 一个唯 一的非 负整数 ，其 
中 负整数 映射为 奇数， 而非负 整数则 映射为 偶数。 

更让 人咋舌 的是， 自 然数对 组成的 集合与 N 本身 也是等 势的。 要知道 这样的 一一 对 应是如 
何 构建起 来的， 可 以考虑 一下图 7-34， 其中 展示了 NxN 中的 有序对 分布在 一个无 限的方 阵中。 
我们根 据有序 对中组 分的和 来确定 它们的 次序， 而对那 些组分 的和相 等的有 序对， 则根 据其第 
一个组 分的大 小确定 次序。 这一次 序始于 (0,0)、 (0,1),  (1,0)、 (0,2)、 (1,1),  (2,0)、 (0,3)、 (1,2), 
等等， 如图 7-34 所 7K。 
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图 7-34 为 自然数 对排序 


现在， 这 些自然 数对有 了先后 次序。 原因 在于， X 利 ■壬 意自 然数对 (4/)， 和比其 小的自 然数对 
的数 量是有 限的， 而和相 同情况 下值埂 小的自 然数对 的数量 也是有 限的。 其实， 我们可 以计算 
自 然数对 (40 在 这一次 序中的 位置， 就是 0_+/) (巧 +1)/2+/。 也就 是说， 我们的 —— 对应是 将自然 
数对 (，_,_/) 与 唯一的 自然数 (㈣) (/+y_+l)/2+/ 关联 起来。 

请 注意， 一定 要谨慎 选择为 有序对 排序的 方式。 假 设在图 7-34 中按行 排序， 那么永 远都没 
法 到达第 二行或 更高行 的自然 数对， 因 为每一 行中都 有无数 个自然 数对。 同样， 按列排 序也是 
行不 通的。 


集合 不是有 限的， 就是 无限的 

乍 一看， 可能会 出现不 那么有 限和不 那么无 限的事 物。 例如， 当 谈论链 表时， 对链 表的长 
度未作 限制。 而 只要在 程序的 执行中 创建了 链表， 它就 具有了 有限的 长度。 因此， 可以 作出如 
下 区分。 

(1)  每 个链表 的长度 都是有 限的， 也就 是说， 它 的单元 数是有 限的。 

(2)  链表的 长度可 能是任 何非负 整数， 而链表 可能长 度的集 合是无 限的。 
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无限集 的正式 定义是 很有意 思的， 不 过这一 定义可 能不符 合我们 对无限 集的直 觉认识 。例 
如， 我们可 能觉得 无限集 是对每 个整数 《 而言， 包含至 少《个 元素的 集合。 好在可 以证明 这一属 
性是每 个由正 式定义 可知无 限的集 合都具 备的， 这一 证明过 程又要 用到归 纳法。 

命题 从《)。 如果 / 是有 限集， 那么 / 具有 一个含 〃个 元素的 子集。 

依据。 设 《  =  0, 显然有 0G1。 

归纳。 假设 对某个 《彡0 有 M«)。 要证 明伟* 一个含 《  +  1 个 元素的 子集。 根 据归纳 假设， / 
有一 个含〃 个元素 的子集 r。 根据 无限集 的正式 定义， 存 在某个 真子集 /C/， 以及从 / 到 J 的 一一 
对应 /。 设 a 是 /-/ 中的 元素， 因为 J 是个真 子集， 所以 a 肯定 是存 在的。 

考虑 R,  7tE/f 的镜 像， 也就 是说， 若7  = 汍, …人} ， 则 ^  =  {/味), …， /汍)}。 因为堤 一一 
对应， 贝 U/ 汍) ，…， /仇) 各不 相同， 所以 尺的大 小也为 《。 因 为/是 从/到 •/ 的， 所 以每个 /汍） 都在 J 
中， 也 就是说 尺[/。 因此， a 不 可能在 穴 中。 这样 一来， 就 是/含 "+  1 个元素 的子集 ，这 
证 明了帥 +  1)。 


集合 的基数 

如果 存在从 ^ 到 r 的 —— 对应， 就 定义两 个集合 ^ 和 r 是 等势的 （大 小相 等）。 等势是 在任意 
由集合 组成的 集合上 的等价 关系， 我 们将这 一点留 作本节 习题。 集合於 斤属的 等价类 就称作 s 
的 基数。 例如， 空集属 于它自 身的等 价类， 可以 用基数 0 来标识 该类。 含 有集合 M  (其中 a 为 
任意 元素） 的类 是基数 1, 而 含集合 {a, 的的类 是基数 2, 等等。 

含 N 的类是 “整 数的基 数”， 通常 称为阿 列夫零 （aleph-O)， 而 该类中 的集合 都是可 数集。 
实数 的集合 属于另 一个通 常被称 为连续 统的等 价类。 其实， 不同的 无限基 数有无 数个。 


7.11.2 可数 集与不 可数集 

由示例 7.41， 我们可 能会认 为所有 无限集 都是等 势的。 我们 已经看 到整数 的集合 Z 以及 非负 
整数 的集合 N 是同 样大 小的， 还有 一些直 觉上讲 “ 似乎” 比 N 小的集 合也与 它大小 相同。 因为我 
们 在示例 7.41 中 看到， 自然数 对是与 N 等势 的， 而 非负有 理数也 是与自 然数等 势的， 因为 有理数 
是 由其分 子和分 母组成 的自然 数对。 同样， 可 以证明 （非负 和负） 有 理数与 整数是 等势的 ，因 
此也就 与自然 数是等 势的。 

对任 意集合 S 而言， 如果 存在从 ^ 到 N 的 —— 对应， 就说 该集 合是可 数的。 这里 用到术 语“可 
数的” 是说得 通的， 因为 肯定有 一个与 0 对应的 元素， 一个与 1 对应的 元素， 等等， 所 以可以 “数” 
劝勺 成员。 我们 之前说 过的， 整数、 有 理数、 偶数， 以 及自然 数对的 集合， 都是可 数集。 还有很 
多其 他的可 数集， 我 们在这 里把对 合适的 一一 对 应的探 索留作 练习。 

不过， 也存 在不可 数的无 限集。 特别 要指出 的是， 实数就 是不可 数的。 其实， 可以 证明从 0 
到 1 之间 的实数 要比自 然数多 。论证 的关键 在于， 0 到 1 之 间的实 数都可 以表示 为无限 长度的 小数。 
我 们为小 数点右 侧的位 标记上 0、 1 等 编号， 如果从 0 到 1 之 间的实 数是可 数的， 那 么可以 将它们 
标记为 r。、 n, 等等， 然后就 可以将 这些实 数排列 在一个 无限的 方阵表 格中， 如图 7-35 所示 。在 
假 设的从 0 到 1 的 所有实 数的排 列中， ；r/10 被分 配到第 0 行， 5/9 被分 配到第 1 行， 5/8 被分 配到第 
2 行， 4/33 被分 配到第 3 行， 等等。 

不过， 可以 证明图 7-35 并 不能真 正表示 0 到 1 这 个范围 内所有 实数的 列表。 我 们的证 明是被 
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称为 对角化 的一类 过程， 要使 用表的 对角线 创造出 一个不 可能在 该实数 列表中 的值。 假 设创造 
一个 新实数 r， 其 十进制 表示为 0.«。_2。 第啦 的值 取决于 对角线 上的第 ? 个 数字， 也 就是在 
第 / 个实 数的第 / 位找到 的值。 如果 该值是 0 到 4, 就设 《;.=8。 如 果对角 线上第 i 个位 置是 5 到 9, 那 
么  a;.  =  1 。 

位置 


0 

1 

2 

3 

4 

5 

6  … 

0 

3 

1 

4 

1 

5 

9 

2  … 

1 

5 

5 

5 

5 

5 

5 

5  … 

实数 

2 

6 

2 

5 

0 

0 

0 

0  … 

丄 

3 

1 

2 

1 

2 

1 

2 

1  … 

4 

图 7-35 假设实 数是可 数的， 表示实 数的假 想表格 


♦ 示例 7.42 

给 定如图 7-35 所示 的部分 表格， 我们 的实数 r 是从 0.8118 …开 始的。 要知道 原因， 请 注意， 0 
号实数 0 号位置 的值是 3, 所以％  =8。 1 号实数 1 号位置 的值是 5, 所以 &=1。 接 下来， 2 号实数 
2 号位置 的值是 5 而 3 号实数 3 号位置 的值是 2, 所以 接下来 的两位 数字是 18。 

我 们的主 张是， 即 便假设 所有从 0 到 1 的实数 都在该 表中， r 也不 会出现 在这一 假想的 实数列 
表中。 假设 r 是 与第 / 行 关联的 实数。 考虑 〃与~. 的差么 r 的 十进制 展开第 / 位数 字为 我们 
知道 该值是 具体选 择的， 从而与 箄 /个位 置的数 字存在 至少为 4 至多为 8 的差。 因此， 箄/个 位置 
对 d 的 贡献在 4/l(y+1 到 9/Ky+1 之间。 

第/ 位之后 的所有 位置对 d 的 贡献加 起来不 会超过 l/lO^1 ， 因为 这就是 r 和 那 些位置 上一个 
全为 0 而另 一个全 为卯寸 的差。 因此， J 及 /之后 的各个 位置对 d 的 贡献在 S/IO^1 到 9/l(y'+1 之间。 

最后， 在箄 / 位之 前的位 置中， .要么 是相 同的， 在 这种情 况下， 前 y_-l 位对 d 的贡 献为 
0； 要 么就是 〃和~ 之间至 少存在 l/uy' 的 区别。 不 管哪种 情况， 我们都 可以看 到^/ 不会为 0。 因此， 
r^W  rj 不 可能是 同一个 实数。 

这 样就可 以得岀 r 不在该 实数列 表中的 结论。 因此， 我们 假设的 这种从 非负实 数到从 0 到 1 
之间 实数的 一一 对应 其实不 是一对 一的。 这 样就证 明了， 在 0 到 1 的范围 内至少 存在一 个实数 r 
不 与任何 整数相 关联。 

7.11.3  习题 

(1)  证明等 势是一 种等价 关系。 提示： 难点 在于传 递性， 要证 明如果 存在从 ^到71^ —一 对应 /， 而且存 
在从： T 到 i? 的 —— 对应 g， 就 存在从 ^到尺 的 —— 对应。 该 函数是 / 和 g 的复合 函数， 也就 是将* S 中的 x 
变为 中的 g(/(x)) 的 函数。 

(2)  在图 7-34 所 示的有 序对次 序中， 编号为 100 的有 序对是 哪个？ 

(3)  *证 明以下 集合是 可数的 （在它 们和自 然数之 间存在 一一 对 应）。 

(a)  完全平 方数的 集合。 

(b)  自然数 三元组 (4/， 幻的 集合。 

(c)  2 的 乘方的 集合。 
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(d) 自然数 有限集 组成的 集合。 

(4)  ** 证明自 然数 的幂集 P(N) 与 实数有 着相同 的 基数， 也就 是说， 存在从 P(N) 到 0 至 1 这 一范围 的实数 
的 一一 对应。 请 注意， 这 一结论 与习题 (3) 的 (d) 小 题并不 矛盾， 因为现 在讨论 的是整 数的有 限集和 
无 限集， 而我们 只能为 有限集 计数。 提示： 以下构 造几乎 能行得 通了， 不过还 需要进 行修正 。考 
虑 一下任 意自然 数集合 的特征 向量。 该 向量是 有限的 0 和 1 组成的 序列。 例如， {0， 1} 的特 征向量 
是 1 100 …， 而含奇 数个自 然数的 集合的 特征向 量则是 010 101 …。 如果 在特征 向量前 加上小 数点， 
就 得到了 0 到 1 之间的 二进制 小数， 它是 表示实 数的。 因此， 每 个集合 都可以 转换为 0 到 1 范 围内的 
实数， 而且通 过将二 进制表 示转换 成特征 向量， 该范围 内的每 个实数 都可以 与一个 集合相 关联。 
这种关 联不是 一一 对应 的原因 在于， 某 些实数 可能会 有两种 二进制 表示。 例如， 0.11000 …和 
0.101 11 …都表 示实数 3/4。 不过， 这 两个二 进制小 数对应 的特征 向量表 示的是 不同的 集合， 前者表 
示 {0,  1}， 而后 者则表 示除了  1 之 外的所 有整数 组成的 集合。 大 家可以 修改这 种构造 以定义 一一 
对应。 

(5) ** 证明： 从 0 到 1 范 围内的 实数组 成的有 序对到 该范围 的实数 间存在 一一 对应。 提示： 要 模仿图 
7-34 中 的表格 是不可 能的。 不过， 我们 可以取 某个实 数对， 比 方说是 (r， 然后 将表示 的 
无限小 数集合 起来， 形 成唯一 的新实 数?。 （与 r 和 s 之间不 是以简 单的算 术表达 式相关 联的， 不过 
从 t， 可以唯 一地恢 复恢复 r 和〜 大家 必须找 出一种 方式， 从 r 和 s 的十 进制展 开构建 (的 十进制 
展开。 

(6) ** 证明： 只 要集合 S 包含 所有整 数大小 0,  1， …的 子集， 该 集合就 是符合 “无 限集” 正式 定义的 
无 限集， 也就 是说， 与它 的一个 真子集 间存在 一一 对应。 

7.12 小结 

大家 应该从 本章中 了 解到了 以下 要点。 

□ 集合的 概念对 数学与 计算机 科学来 说都是 基础。 

□ 集合 的常见 运算包 括可以 用文氏 图直观 呈现的 并集、 交集 和差集 运算。 

□代数 法则可 用于处 理和简 化涉及 集合与 集合运 算的表 达式。 

□ 链表、 特征 向量和 散列表 提供了 3 种表 示集合 的基本 方式。 链 表提供 了适用 于最多 集合运 
算的 最佳灵 活性， 但 并非总 是最高 效的。 特征向 量对某 些集合 运算而 言有着 最快的 速度， 
但只能 用于全 集规模 较小的 情况。 散 列表是 通常被 选用的 方式， 兼 具表示 的经济 性与访 
问的迅 速性。 

□ (二 元） 关系是 有序对 的集合 。 函数 是对某 给定的 第一个 组分而 言至多 有一个 元组的 
关系。 

□ 两个集 合间的 一一 对应关 系是个 函数， 它会给 第一个 集合中 的各个 元素关 联上第 二个集 
合中 的唯一 元素， 反之 亦然。 

□二 元关系 具有一 些重要 属性， 其中自 反性、 传 递性、 Xt 称性 和反对 称性属 于最重 要的。 

□偏 序、 全序和 等价关 系是二 元关系 的重要 特例。 

□无限 集是指 那些与 其某一 真子集 间存在 一一 对应 关系的 集合。 

□  一些无 限集是 “可数 的”， 也就 是说， 它们 与整数 间存在 一一 •应的 关系。 另外一 些无限 
集， 比如 实数， 是不可 数的。 

□ 在 本章中 定义的 集合和 关系上 的数据 结构与 运算还 会在本 书剩下 的 部分以 多种不 同的方 
式 使用。 
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第 8 章 

关系数 据模型 


计 算机最 为重要 的一项 应用就 是存储 和管理 信息。 信息 的组织 方式对 访问和 管理信 息的容 
易程 度有着 深刻的 影响。 也许 最简单 而最万 能的信 息组织 方式就 是将其 存储在 表中。 

关系 模型就 是这一 概念的 核心： 数据 被组织 成称为 “ 关系” 的 二维表 集合。 我们还 可以将 
关 系模型 视作第 7 章讨论 的集合 数据模 型的一 般化， 是 将二元 关系扩 展到任 意元的 关系。 

之所以 最初要 研发关 系数据 模型， 是 因为要 用于数 据库， 即长 时间存 储在计 算机系 统中的 
信息， 并用 于数据 库管理 系统， 即让人 们可以 存储、 访 问和修 改这些 信息的 软件。 数据 库仍然 
是我 们理解 关系数 据模型 的重要 动机。 现在它 们不仅 存在于 最初的 那些大 规模应 用中， 比如航 
空订 票系统 或银行 系统， 而 且可以 应用于 桌面计 算机， 处理一 些个人 活动， 诸如维 持支出 记录、 
作业 成绩， 此外 还有其 他很多 用途。 

除了 数据库 系统， 其 他类型 的软件 也可以 很好地 利用信 息表， 而关系 数据模 型有助 于我们 
设计这 些表， 并研究 岀高效 访问这 些信息 表所需 的数据 结构。 例如， 这样 的表可 被编译 器用来 
存储 与程序 中变量 有关的 信息， 记 录它们 的数据 类型以 及定义 它们的 函数。 

8.1 本章主 要内容 

本章有 3 个相互 交织的 主题， 首 先要向 大家介 绍的是 使用关 系模型 的信息 结构的 设计， 我们 
会看 到如下 内容。 

□信 息表， 称作 “关 系”， 是 强大而 灵活的 信息表 示方式 （8.2 节)。 

□ 设计过 程中的 重要环 节是在 不引入 “冗 余”， 即某一 事实重 复若干 次的情 况下， 选 择可一 
起 存储在 表中的 “ 属性” 或所描 述对象 的属性 （8.2 节)。 

□表中 的列是 用属性 命名的 。表 （或 关系） 的 “键” 是 其值能 唯一确 定表中 整行值 的属性 
构成的 集合。 知道表 的键有 助于设 计表示 表的数 据结构 （  8.3 节)。 

□索 引是有 助于我 们迅速 检索或 更改表 中信息 的数据 结构。 如 果想高 效地操 作表， 明智地 
选 择索引 是至关 重要的 （8.4 节、 8.5 节和 8.6 节)。 

第二 个主题 是数据 结构加 速数据 访问的 方式， 在这 部分内 容中我 们会了 解 到如下 内容。 

□ 诸如 散列表 这样的 主索引 结构将 表中各 行安排 在计算 机的内 存中， 合适的 结构可 以提高 
诸多操 作的效 率 （  8.4 节)。 

□辅 助索引 提供了 额外的 结构， 而 且有助 于高效 执行其 他操作 （  8.5 节和 8.6 节)。 
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第三个 主题是 一种非 常高级 的表示 “ 查询” 的 方式， 其 中查询 是指与 表集合 中的信 息有关 
的 问题， 这部分 有以下 要点。 

□ 关系 代数是 一种强 大的表 示法， 可以 在不给 出运算 执行细 节的情 况下表 示查询 （  8.7 节)。 
□ 关系 代数的 运算符 可以用 本章讨 论的数 据结构 来实现 （  8.8 节)。 

□ 为了 迅速得 出用关 系代数 表示的 查询的 解答， 通 常有必 要对它 们加以 “ 优化” ，也就 是说， 
使用 代数法 则将一 个表达 式转换 成有着 更快求 值策略 的等价 表达式 。我 们将在 8.9 节中了 
解一些 这样的 技巧。 


8.2 关系 


7.7 节 介绍的 “ 关系” 的 概念是 元组的 集合。 关系中 的每个 元组都 是一列 组分， 而每 个关系 
都具有 固定的 元数， 它 表示每 个元组 中所含 组分的 数量。 尽管 我们主 要研究 了二元 关系， 也就 
是 元数为 2 的 关系， 但 也说过 其他元 数的关 系不仅 存在， 而 且相当 实用。 

关系 模型中 用到的 “ 关系” 的 概念与 关系的 集合论 定义是 紧密相 关的， 但在 某些细 节上存 
在 差异。 在 关系模 型中， 信息 被存储 在如图 8-1 所示的 表中。 图中的 表所表 示的数 据可能 存储在 
教 务老师 的计算 机中， 是与 课程、 选 择这些 课程的 学生以 及他们 所取得 的成绩 有关的 信息。 

表中的 列都被 给定了 名称， 这些名 称就叫 做属性 （attribute)。 在图 8-1 中， 属 性分别 有课程 
( Course  )、 学号 （ StudentID  ) 和成绩 （ Grade  )D 


课  程 

学  号 

成  绩 

CS101 

12345 

A 

CS101 

67890 

B 

EE200 

12345 

C 

EE200 

22222 

B+ 

CS101 

33333 

A- 

PH100 

67890 

C+ 

图 8-1 信息表 


作为 集合的 关系与 作为表 的关系 

在 关系模 型中， 正如 我们在 7.7 节中 对集合 论关系 的讨论 那样， 关系也 是元组 的集合 。因 
此， 表中各 行排列 的次序 是不重 要的， 可以随 意重新 排列表 中各行 而不会 改变表 的值， 就像重 
新排 列 集合中 元素的 次 序而不 改变 集合的 值 那样。 

表的每 一行中 各组分 的次序 则是关 键的， 因为 不同的 列有着 不同的 名称， 而 且每个 组分所 
表示 的项， 必须具 有该列 标题所 指示的 类型。 不过， 在 关系模 型中， 可以 将一整 列连同 标题的 
名 称一 起改变 次序， 这 样就能 保持该 关系不 发生变 化 。 数据 库关系 在这 方面与 集 合论关 系 不同， 
不 过我们 很少会 重新排 列表中 的列， 因此可 以保留 同样的 术语。 为 了避免 疑问， 本章中 的术语 
“ 关系” 总是 具有数 据库的 含义。 


表 中各行 被称为 元组， 且表 示基本 事实。 第 一行， (CS101,  12345,  A), 表 示学号 12345 的 
学生 在课程 CS101 中得了  A。 
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表包 含两个 方面。 

(1)  列名的 集合； 

(2)  包 含信息 的行。 

术语 “ 关系” 指的是 后者， 也就 是行的 集合。 每 一行表 示关系 的一个 元组， 而且 这些行 在表中 
出 现的 次序是 无关紧 要的。 相同表 中不存 在各列 的值全 部相同 的 两行。 

第⑴ 项， 列名 （属 性） 的集 合被称 为关系 的模式 （scheme)。 属性在 模式中 岀现的 次序无 
关 紧要， 不过为 了正确 地写出 元组， 需 要知道 属性与 表中的 列之间 的对应 关系。 我们通 常会使 
用模 式作为 关系的 名称。 因此， 图 8-1 中 的表通 常称为 “ 课程- 学号- 成绩” 关系。 此外， 还可以 
用首字 母缩写 CSG 来为 该关系 命名。 

8.2.1 关 系的表 不 

就 像集合 那样， 用数据 结构表 示关系 的方式 也多种 多样。 表的各 行就应 该是结 构体， 其中 
各个字 段与各 列名相 对应。 例如， 图 8-1 所 示关系 中的元 组可以 表示为 如下类 型的结 构体。 

struct  CSG  { 

char  Course [5] ; 
int  Studentld; 
char  Grade [2] ; 

>； 

表本身 可以从 多种方 式中任 选其一 来表示 ，比如 

(1)  该类型 结构体 组成的 数组。 

(2)  该类型 结构体 组成的 链表， 其 中还要 有链接 链表各 单元的 next 字段。 

此外， 也可 以将一 个或多 个属性 视为该 关系的 “定义 域”， 而将 其余属 性视作 “值 域”。 例如， 
图 8-1 中 的关系 可以被 看作从 定义域 “ 课程” 到由 “ 学号- 成绩” 有序 对组成 的值域 的关系 。然 
后可 以按照 7.9 节中 讨论过 的二元 关系的 模式， 将该关 系存储 在散列 表中。 也就 是说， 我 们会散 
列 “ 课程” 的值， 而 存储在 散列表 元中的 元素是 “ 课程- 学号- 成绩” 三 元组。 我 们将从 8.4 中起 
更为 详细地 讲解表 示关系 的数 据结构 的这一 问题。 

8.2.2 数据库 

关系 的集合 称为数 据库。 在 为某些 应用设 计数据 库时， 首 先要做 的就是 决定待 存储的 数据该 
如何 安排在 表中。 与 所有设 计问题 一样， 数据 库的设 计也是 个业务 需求和 判断的 问题。 在 接下来 
的示 例中， 我们 将扩展 这里涉 及课程 的教务 数据库 应用， 而且要 揭示优 秀数据 库设计 的一些 原则。 

数据库 最强大 的那些 操作涉 及将若 干关系 用来表 示协调 的数据 类型。 通过建 立恰当 的数据 
结构， 可 以高效 地从一 个关系 跳转到 另一个 关系， 从 而从数 据库中 获取一 些无法 从单个 关系发 
现的 信息。 与 关系间 “ 导航” 相关的 数据结 构和算 法将在 8.6 节和 8.8 节 中加以 介绍。 

数据库 中各关 系的模 式组成 的集合 就是数 据库的 模式。 要注 意数据 库模式 （它 告诉 我们与 
数 据库中 信息组 织方式 有关的 信息） 与 各关系 中元组 的集合 （数 据库 中存储 的实际 信息） 之间 
的 区别。 

♦ 示例 8.1 

我 们为图 8-1 中具 有模式 { 课程， 学号， 成绩 } 的关 系补充 4 个 其他的 关系， 它 们的模 式和直 
观意义 如下。 


328  第 8 章 关系数 据模型 


(1M 学号， 姓名， 地址， 电 话}。 学生 的学号 出现在 元组的 第一个 组分， 而 姓名、 地 址和电 
话号 码分别 岀现在 第二、 第 三和第 四个组 分中。 

(2) { 课程， 前提 }。 该元 组第二 个组分 表示的 课程， 是选 修第一 个组分 所表示 课程的 前提。 

(3) { 课程， 日子， 时刻 }。 第一 个组分 表示的 课程， 是在 由第二 个组分 指定的 日子， 第三个 
组 分给出 的时刻 上课。 

(4)  { 课程， 教室 }。 第 一个组 分表示 的课程 是在第 二个组 分表示 的教室 上课。 

这 4 个 模式， 加 上之前 提到的 {课 程， 学号， 成绩} 模式， 就构成 了用于 本章示 例的数 据库模 
式。 我们还 需要一 个表示 数据库 可能的 “当 前值” 的 示例。 图 8-1 给出了  “课 程-学 号-成 绩”关 
系 的一个 例子， 而对 应其他 4 个 模式的 示例关 系如图 8-2 所示。 请 记住， 这 些关系 远比我 们在现 
实 中遇到 的关系 简短， 在 这里只 是需要 提供一 些对应 这些模 式的样 本元组 而已。 


学  号 

姓  名 

地  址 

电  话 

12345 

C. Brown 

12  Apple  St. 

555-1234 

67890 

L.Van  Pelt 

34  Pear  Ave. 

555-5678 

22222 

P.Patty 

56  Grape  Blvd. 

555-9999 

(a) 学号 -姓名 -地址 -电话 

课  程 

前  提 

CS101 

CS100 

EE200 

EE005 

EE200 

CS100 

CS120 

CS101 

CS121 

CS120 

CS205 

CS101 

CS206 

CS121 

CS206 

CS205 

⑻ 课程 -前提 

课  程 

日  子 

时  刻 

CS101 

M 

9AM 

CS101 

W 

9AM 

CS101 

F 

9AM 

EE200 

Tu 

10  AM 

EE200 

W 

1PM 

EE200 

Th 

10  AM 

(C) 课程 -日子 -时刻 


课  程 

教  室 

CS101 

Turing  Aud. 

EE200 

25  Ohm  Hall 

PH100 

Newton  Lab 

(d) 课程 -教室 

图 8-2 

样 本关系 

8.2  关系  329 


8.2.3 数据库 的查询 


我 们在第 7 章中看 到过对 关系和 函数执 行的一 些特别 重要的 操作， 虽然 根据处 理的是 词典、 
函数或 是二元 关系， 它 们相应 的意义 会有所 区别， 但这 些操作 都名为 插入、 删除和 查找。 我们 
能对 数据库 关系， 特别是 对两个 或多个 关系的 结合， 执行 大量的 操作， 而且 8.7 节 中还会 概述对 
两 个或多 个关系 的结合 执行的 操作。 不 过现在 让我们 将注意 力集中 在对单 一关系 执行的 基本操 
作上。 这 些操作 是对第 7 章 中讨论 过的那 些操作 的自然 概括。 

(1)  insert(t,R)。 如果 元组淌 未岀现 在关系 i? 中， 就将它 添加到 尺中。 该 操作与 词典或 二元关 
系 的插入 操作有 着相同 的 精神。 

(2) delete(X,R)。 在 这里， X 是某些 元组的 规范。 它是 由对应 i? 各 属性的 组分组 成的， 每个组 
分都 会是下 面两者 之一。 

(a)  一 个值。 

(b)  符号 *， 表 示可以 接受任 意值。 

该 操作的 效果是 删除满 足规范 Z 的所有 元组。 例如， 如 果要取 消课程 CS101， 就 要从课 
程 -日子 -时刻 关系中 删除所 有课程 属性为 “CS101” 的 元组。 我们 可以用 
Lookup((“CS10r,  *,  8)， 课程 - 日子- 时刻） 

表 示这种 情况。 该 操作会 删除图 8-2(c) 中的前 3 个 元组， 因为它 们的第 一个组 分与该 规范的 
第一个 组分有 着相同 的值， 而且 它们的 第二和 第三个 组分也 都像任 意值那 样能与 * 匹配。 

(3)  lookup(X,R)。 该操作 的结果 是得到 i? 中匹 配规范 对勺 元组 形成的 集合， 义是 个象征 性的元 
组， 就跟第 (2) 项中 描述的 一样。 例如， 如果 我们想 要知道 哪些课 程是以 CS101 为 前提， 
就可 以询问 

/oo_7((V’CS101”)， 课程- 前提） 

结果 是由两 个与条 件匹配 的元组 (CS120,  CS101) 和 (CS205,  CS101) 组成的 集合。 

♦ 示例 8.2 

下 面有更 多对教 务数据 库进行 操作的 例子。 

(a)  /oo^(("CS101M2345^), 课程- 学号- 前提） 可 以找到 学号为 12345 的学生 CS101 
课程的 成绩。 正式 地讲， 得到的 结果只 有一个 匹配的 元组， 也 就是图 8-1 中的 第一个 
元组。 

(b)  /oo^(("CS205","CS120"), 课程- 前提) 会询问 CS120 是否为 CS205 的 前提。 正式地 
讲， 如 果元组 (” CS205”,”CS120”) 在该关 系中， 产生 的回答 就是该 元组， 如果 该元组 
不 在该关 系中， 那么回 答就是 空集。 对图 8-2b 中 的关系 而言， 得到的 回答是 空集。 

(c)  delete(CCS\OV',*), 课程- 教室) 会 剔除图 8-2d 中的 第一个 元组。 

(d)  / 服竹 (("CS205  VCS120”)， 课程- 前提) 会使 CS120 成为 CS205 的 前提。 

(e)  /^er/(("CS205","CS101"), 课程- 前提) 不 会对图 8-2b 的关 系造成 影响， 因为 要插入 
的元组 已经在 该关系 中了。 

8.2.4 表示关 系的数 据结构 的设计 

在本 章接下 来的部 分中， 有大量 篇幅用 来讨论 如何为 关系选 择数据 结构的 问题。 在 7.9 节中 
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讨论 二元关 系的实 现时， 我们已 经见识 过有关 该问题 的一些 内容。 我 们为品 种-传 粉者关 系给定 
了 一个有 关品种 的散列 表作为 其数据 结构， 而且 我们看 到该结 构在回 应诸如 

lookup  ( ("  Wickson  "  ,*), 品 种-传 粉者） 

这样的 查询时 会非常 实用， 因为值 “Wickson” 让我们 找到了 有待查 找的特 定散列 表元。 不过该 
结 构对回 应诸如 

lookup  ( (*, "  Wickson "), 品 种-传 粉者） 

这样的 查询是 无所帮 助的， 因 为我们 必须要 在所有 的散列 表元中 查找。 

有 关品种 的散列 表是否 为合适 的数据 结构， 取决 于预期 的查询 组合。 如果我 们预期 品种总 
是已指 定的， 那么 散列表 就是合 适的， 而 如果预 期品种 有时候 是未指 定的， 就如 先前的 查询那 
样， 那么就 需要设 计一种 更强大 的数据 结构。 

数据结 构的选 择是我 们在本 章中要 面对的 基本设 计问题 之一。 在 8.3 节中， 我们 要推广 7.8 
节和 7.9 节 中用于 函数和 二元关 系的基 本数据 结构， 从而让 一些属 性要么 在定义 域中， 要 么在值 
域中。 这些 结构将 被称为 “主 索引结 构”。 然后， 在 8.5 节中 要介绍 “辅助 索引结 构”， 它 们是让 
我们 能高效 回应更 多种类 查询的 额外的 结构。 到 那时， 我们 就将看 到如何 能让上 述两个 查询以 
及其他 与品神 -传粉 者关系 有关的 查询得 到高效 回应， 也就 是说， 大 约在列 出所有 这些回 应所花 
的 这段时 间内。 


设计 I: 数据 库模式 的选择 

在使 用关系 数据模 型时， 如何 选择合 适的数 据库模 式是个 重要的 问题。 例如， 为什 么我们 
要把与 课程有 关的信 息分为 5 个 关系， 而不是 将其放 在具有 以下模 式的一 张表中 
{ 课程， 学号， 成绩， 前提， 日子， 时刻， 教室 } 

直 觉上的 原因在 于下列 两点。 

□如 果将两 个独立 类型的 信息结 合成一 个关系 模式， 就可能 被迫多 次重复 同样的 事实。 
例如， 与课 程有关 的前提 信息， 是 独立于 日子和 时刻信 息的。 如果我 们将前 提信息 与日子 
-时 刻信息 结合在 一起， 就不 得不在 列出某 课程的 前提时 还要加 上每次 上课的 时间， 反之 亦然。 
那么， 如 果将图 8-2b 和图 8-2c 中有 关课程 EE200 的数据 放在具 有{ 课程， 前提， 日子， 时刻 }模 
式的 单一关 系中， 就成了 


课  程 

前  提 

日  子 

时  刻 

EE200 

EE005 

Tu 

10  AM 

EE200 

EE005 

W 

1PM 

EE200 

EE005 

Th 

10  AM 

EE200 

CS100 

Tu 

10  AM 

EE200 

CS100 

W 

1PM 

EE200 

CS100 

Th 

10  AM 

请 注意， 要 完成之 前各含 2 到 3 个 组分的 5 个元 组就能 完成的 工作， 这里 要用到 6 个 元组， 
而 且每个 元组有 4 个 组分。 

□反 过来， 在属 性表示 相互联 系的信 息时， 不要 把它们 分开。 

例如， 我们 不能把 “ 课程- 日子- 时刻” 关系替 代为分 别具有 “ 课程- 日子” 模式和 “课程 
-时刻 ”模式 的两个 关系。 因 为那样 的话， 我们只 能告知 EE200 会在星 期二、 星期 三和星 期四上 
课， 而且会 在上午 10 点 及下午 1 点 上课， 但 没办法 说明这 3 天 分别是 在几点 上课。 
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8.2.5 习题 

( 1 )  为图 8-2a 到图 8-2d 的这些 关系中 的元 组给岀 合适 的 结构体 声明。 

(2) * 对以 下问题 来说， 合适的 数据库 结构是 什么？ 

⑻ 电 话簿， 包 含电话 簿中所 有常见 信息， 比如 区号。 

(b)  英语 词典， 包含词 典中所 有常见 信息， 比如 词源和 词性。 

(c)  日历， 包含日 历中所 有常见 信息， 比如节 假日， 要含有 从公元 1 年 到公元 4000 年 的所有 内容。 

8.3 键 

很 多数据 库关系 可被视 作从某 些属性 的集合 到其余 属性的 函数。 例如， 我 们可将 “课程 - 
学号- 成绩” 关系 看作定 义域为 “ 课程- 学号” 有 序对， 值域为 成绩的 函数。 因为 函数的 数据结 
构比一 般关系 的数据 结构多 少要简 单一些 ，所以 如果我 们知道 可以作 为函数 定义域 的属性 集合， 
是能 派上用 场的。 这 样的属 性集合 就叫作 “ 键”。 

更正式 地讲， 关 系的键 是一项 或多项 属性的 集合， 它满足 这样的 条件， 就是在 任何情 况下， 
以 键属性 为标题 的列中 不会出 现相同 的值。 通常， 有 很多不 同的属 性集合 可以作 为关系 的键， 
不过我 们一般 只选择 一个， 并称为 “ 键”。 

8.3.1 键 的确定 

因为 键可以 用作函 数的定 义域， 所以 它们在 8.4 节中 讨论主 索引结 构时扮 演了重 要角色 。一 
般 而言， 我 们没法 证实或 证明属 性集合 可以形 成键， 而是需 要小心 地检查 与要建 模的应 用有关 
的 假设， 以及 这些假 设如何 反映在 我们设 计的数 据库模 式中。 只有 这样才 能知道 给定的 属性集 
合是否 适合作 为键。 接 下来有 一系列 的示例 用来说 明一些 问题。 

♦ 示例 8.3 

考虑图 8-2a 中的 “学 号-姓 名-地 址- 电话” 关系。 显然， 每个元 组都是 用来表 示不同 学生的 
信 息的。 我 们不希 望找到 两个具 有相同 学号的 元组， 因为这 一编号 存在的 意义就 是要为 每个学 
生指定 一个唯 一的标 识符。 如果让 同一个 关系中 有了两 个学号 相同的 元组， 那么 其中有 一个就 
是岀 错了。 

(1)  如果两 个元组 所有的 组分都 相同， 那么就 违背了 关系是 集合的 假设， 因为 集合中 每个元 
素 最多只 能岀现 一 '次。 

(2)  如果 两个元 组有着 相同的 学号， 但在 姓名、 地址或 电话这 3 列 中至少 有一个 不同， 就说 
明数 据存在 错误。 要么 是我们 给了不 同的学 生同一 个学号 （如 果元 组中的 “ 姓名” 有 区别） ，或 
是 错给同 一个学 生记录 了两个 不同的 地址和 （或） 电话 号码。 

因此 ，将 “ 学号” 属 性作为 “ 学号- 姓名- 地址- 电话” 关系的 键是合 理的。 

不过， 要将 “ 学号” 声明 为键， 就要作 出一项 关键的 假设， 就 是在之 前的第 (2) 项中阐 明的， 
决 不会为 同一个 学生存 储两个 姓名、 地址 或电话 号码。 不过我 们还可 能作岀 其他的 决定， 例如 
为每 个学生 存储家 庭地址 和校园 地址。 如 果这样 的话， 就最好 将该关 系设计 成具有 5 项属性 ，将 
“ 地址” 属性替 换为家 庭地址 （ HomeAddress  ) 和本 地地址 （ LocalAddress  ) 这两个 属性， 而不 
是 为每个 学生使 用两个 只有地 址组分 不同的 元组， 因为 那样的 话学号 就不再 能作为 键了， 而{学 
号， 地址} 就能作 为键。 
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♦ 示例 8.4 

审视图 8-1 中的 “ 课程- 学号- 成绩” 关系， 我们可 能想将 “ 成绩” 作 为键， 因 为表中 没有两 
个元 组的成 绩是相 同的。 不过， 这 种推理 是不合 理的。 在这 个只有 6 个元 组的示 例中， 确 实没有 
两个元 组具有 相同的 成绩， 不过在 常见的 “ 课程- 学号- 成绩” 关 系中， 可 能有着 成千上 万个元 
组， 肯 定有很 多成绩 会岀现 多次。 

最 有可能 的是， 数据库 设计人 员的想 法是用 “课 程”和 “ 学号” 这两 个属性 一起形 成键。 
也就 是说， 假 设学生 不可能 选修同 一课程 两次， 因此， 不可 能岀现 课程与 学号都 相同的 两个不 
同 元组。 因 为我们 预见可 以找出 多个具 有相同 “ 课程” 组分的 元组， 以及 很多有 着同样 “ 学号” 
组分的 元组， 所以 “课 程”和 “ 学号” 都不能 单独作 为键。 

不过， 学 生在任 意课程 中只可 以获得 一个成 绩的假 设也是 有待推 敲的， 这取 决于学 校的具 
体 政策。 也许在 课程内 容发生 重大改 变时， 学生可 以重新 注册该 课程。 如果 有这种 情况， 就不 
能将彳 课程， 学号} 声明为 “课程 -学号 -成绩 ”关系 的键， 只 有全部 3 个 属性的 集合才 可以作 为键。 
请 注意， 具有关 系中所 有属性 的集合 总能作 为键， 因为 关系中 不可能 岀现两 个相同 的元组 。事 
实上， 最好 是添加 第四项 属性， 日期 来表示 课程被 选择的 时间， 这 样一来 就可以 处理学 生选了 
同 样课程 两次并 且两次 都获得 相同成 绩的情 况了。 

♦ 示例 8.5 

在图 8-2b 的 “ 课程- 前提” 关 系中， 两 项属性 都不能 单独作 为键， 不过 两项属 性一起 就能形 
成键。 

♦ 示例 8.6 

在图 8-2c 所示的 “ 课程- 日子- 时刻” 关 系中， 全部 3 项属性 一起形 成了唯 一合理 的键。 可能 
只要 课程和 日子加 在一起 就能声 明为键 ，不 过这样 就没法 存储同 一天中 要出现 两次的 课程了 （比 
如演 讲和实 验)。 


设计 N: 键 的选择 

为关系 确定键 是数据 库设计 中的一 个重要 方面， 当 我们在 8.4 节 中选择 主索引 结构 时就会 
用到。 

□不 能只 靠观察 关系的 几 个示例 值就确 定键。 

也就 是说， 外表可 能有欺 骗性， 就 像我们 在示例 8.4 中讨论 过的， 图 8-1 所示 “ 课程- 学号- 成绩” 
关 系中的 “ 成绩” 属性 那样。 

□不 存在 所谓的 “正 确的” 键 选择， 选 择什么 属性作 为键， 取 决于对 关系所 含数据 的类型 
作出的 假设。 


♦ 示例 8.7 

最后， 考虑 一下图 8-2d 中的 “ 课程- 教室” 关系。 我 们认为 “ 课程” 可以作 为键， 也就 
是说， 不会有 课程会 在两个 或多个 不同的 教室中 进行。 如果 情况不 这样， 就 应该将 “课程 - 
教室” 关系与 “ 课程- 日子- 时刻” 关 系结合 起来， 这样就 可以区 分一门 课程是 在哪间 教室里 
上 课了。 
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8.3.2  习题 

(1)  * 假设我 们想为 “学 号-姓 名-地 址- 电话” 关系 中的学 生分别 存储家 庭地址 及本地 地址， 以及家 

庭电话 及本地 电话。 

(a)  这样 一来， 该 关系最 为合适 的键是 什么？ 

(b)  这 一改变 会带来 冗余， 例如， 如 果某学 生的两 个地址 和两个 电话号 码以所 有可能 的方式 结合后 
出现在 不同元 组中， 那么该 学生的 姓名就 会重复 4 次。 我们 在示例 8.3 中提 供过一 种解决 方案， 
就是 使用不 同的属 性来表 示不同 的地址 和不同 的电话 。那 么这样 一来关 系模式 会是怎 样的？ 而 
这 一关系 最合适 的键是 什么？ 

(c)  8.2 节 中介绍 过另一 种处理 冗余的 方式， 就是将 该关系 分解成 两个具 有不同 模式的 关系， 一起 
存放 原关系 的所有 信息。 如果要 为同一 学生存 储多个 地址和 电话， 应该将 “学号 -姓名 -地址 - 
电话” 关系 分解为 哪几个 关系？ 提示： 关键问 题在于 地址和 电话是 否为独 立的。 也就 是说， 
是否期 望一个 电话号 码会在 某学生 的所有 地址都 能接通 （在 地址和 电话相 互独立 的情况 下）， 
还是说 电话号 码是与 单个地 址相关 联的。 

(2)  * 车管 所维护 着含有 如下若 干类信 息的数 据库。 

口 驾驶员 的姓名 （Name) 。 

口 驾驶员 的地址 （ Addr  ) 。 

口 驾驶员 的驾驶 证编号 （ LicenseNo  ) 。 

□ 车辆的 序列号 （ SerialNo  ) 。 

□车 辆的 生产商 （Manf) 。 

□车 辆的型 号名称 （Model) 。 

□ 车辆 的注册 （ 车牌） 号 （ RegNo  ) 。 

车 管所希 望将每 个驾驶 员关联 到相关 信息： 地址、 驾驶 证和所 拥有的 车辆。 还希望 将每辆 车关联 

到相关 信息： 所 有者、 序 列号、 生 产商、 型 号和注 册号。 我们 假设熟 悉车管 所运作 的基本 要求， 

例如， 不 可能将 同样的 车牌发 给两辆 汽车。 大 家可能 不知道 （但 这确 实是事 实）， 即便是 来自不 

同 生产商 的两辆 汽车， 也 不可能 具有同 样的序 列号。 

(a)  选择 数据库 模式， 也就 是关系 模式的 集合， 其 中每个 关系模 式都由 上面列 岀的从 1 到 7 这 几种属 
性 的集合 组成。 大 家必须 让所需 的联系 都可以 通过存 储在这 些关系 中的数 据体现 岀来， 而且必 
须避免 冗余， 也就 是说， 大家 设计的 模式不 应该重 复存储 相同的 事实。 

(b)  说明 哪些 属性可 以作为 ⑻ 小题 中设计 的关系 的键。 

8.4 关系的 主要存 储结构 

在 7.8 节和 7.9 节中， 我们看 到如何 通过根 据有序 对的定 义域值 存储有 序对， 以 使对函 数和二 
元关 系的某 些操作 提速。 在提到 我们在 8.2 节中 定义的 一般的 插入、 删除和 查找操 作时， 能有所 
帮助 的是那 些指定 了定义 域值的 操作。 再次回 想一下 7.9 节中的 “品 种-传 粉者” 关系， 如果将 
品种 作为关 系的定 义域， 就有利 于那些 指定了 品种而 不关心 是否指 定了传 粉者的 操作。 

这 里有一 些可用 于表示 关系的 结构。 

⑴ 二叉查 找树， 在 定义域 值上有 “ 小于” 关系 以安排 元组的 位置， 可 以用来 促进指 定了定 
义 域值的 操作。 

(2)  以定义 域值作 为数组 索引， 用 作特征 向量的 数组有 时是有 用的。 

(3)  散 列定义 域值以 找到散 列表元 的散列 表是有 用的。 
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(4) 原则 上讲， 元组组 成的链 表是一 种候选 结构。 我 们将忽 略这种 可能， 因为 它对任 何类型 
的操 作都没 有促进 作用。 

当关 系不是 二元关 系时， 同 样的结 构也是 可以使 用的。 定义域 不是只 有单个 属性， 而是可 
能结合 &个 属性， 我们将 其称为 定义域 属性， 或是 在明确 所指的 是属性 集合时 ，将其 直接称 为“定 
义 域”。 这样 一来， 定 义域的 值就是 A 元组， 各 组分对 应定义 域的各 属性。 而值域 属性是 那些定 
义 域属性 之外的 属性。 值域值 也可以 有多个 组分， 每一个 都对应 着一个 值域的 属性。 

一般 来说， 我 们必须 选出想 要作为 定义域 的那些 属性。 最简单 的情况 是一个 属性或 少量属 
性作 为关系 的键的 情况。 这样的 话就可 以选择 键属性 作为定 义域， 而 将其余 属性作 为值域 。在 
没有键 的情况 下 （ 所有属 性的集 合这种 不实用 的键除 外）， 我 们可以 选择任 意属性 集合作 为定义 
域。 例如， 可以 考虑期 望对该 关系执 行的那 些常用 操作， 并 选择预 期经常 要指定 的属性 作为定 
义域。 我 们很快 就将看 到一些 具体的 例子。 

一旦选 择了定 义域， 就可 以从刚 提到的 4 种 数据结 构中任 选其一 表示该 关系， 或者其 实也可 
以选择 另一种 结构。 不过， 通 常会选 择以定 义域值 作为索 引的散 列表， 而 且我们 在这里 一般都 
会这 么做。 

所选的 结构就 称为该 关系的 主索引 结构。 形容词 “主” 表 示元组 的位置 是由该 结构确 定的。 
索 引则是 在给定 所需要 的元组 的一个 或多个 组分的 情况下 协助找 到元组 的数据 结构。 在 8.5 节 
中， 我们 将讨论 “ 辅助” 索弓 I， 它有助 于回应 查询， 但 不影响 数据的 位置。 


typedef  struct  TUPLE  *TUPLELIST ; 
struct  TUPLE  { 

int  Student Id; 
char  Name [30] ; 
char  Address [50] ; 
char  Phone [8] ; 

TUPLELIST  next; 

>； 

typedef  TUPLELIST  HASHTABLE [1009] ; 


图 8-3 作为 主索引 结构的 散列表 的类型 


♦ 示例 8.8 

我们 来考虑 一下以 “ 学号” 属性作 为键的 “ 学号- 姓名- 地址- 电话” 关系。 学号属 性就将 
作为定 义域， 而其他 3 个 属性则 会形成 值域， 因 此可以 将该关 系视为 从学号 到“姓 名-地 址- 电话” 
三 元组的 函数。 

就和 所有的 函数 那样， 我们 选择接 受定义 域值作 为参数 并生成 散列表 元号作 为结果 的散列 
函数。 在 这种情 况下， 散列函 数会接 受学生 的学号 （整 数） 作为 参数。 我们 将选择 1009® 作为散 
列表元 的数量 5, 这样 散列函 数就是 

h{x)  =  x%\m 

散列 函数将 学号映 射到从 0 到 1008 这个 范围的 整数。 

含 1009 个散列 表元头 部的数 组给我 们带来 了一列 列的结 构体。 i 号散列 表元对 应的链 表中的 
结 构体表 示的是 学号组 分除以 1009 余数为 / 的那 些元组 。对 “ 学号- 姓名- 地址- 电话” 关系 来说， 


① 1009 是 1000 左右的 质数。 如 果数据 库要记 录数千 学生的 信息， 就可 以使用 1000 个左右 的散列 表元， 这样 一来每 
个散 列表元 中的平 均元组 数就会 很小。 
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图 8-3 中的声 明对散 列表元 链表中 的结构 体和散 列表元 头部数 组来说 都是合 适的。 图 8-4 展示了 
散 列表看 起来的 样子。 

散列表 元头部 

0 

1 


12345  -V  237 


1008 

图 8-4 表示 “ 学号- 姓名- 地址- 电话” 关系的 散列表 


12345 


C.  Brown 


12  Apple  St. 


555-1234 


通向 237 号 散列表 
元 中的其 他元组 


♦ 示例 8.9 

再看 一个更 复杂的 例子， 考 虑一下 “ 课程- 学号- 成绩” 关系。 我们 可以用 散列表 作为主 
结构， 该 散列表 的散列 函数接 受课程 和学号 （即构 成该关 系的键 的两项 属性） 作 为参数 。这 
样 的散列 函数要 接受表 示课程 名称的 字符， 再 加上表 示学生 学号的 整数， 然后 再除以 1009 取 
余数。 

如 果我们 要进行 的操作 都是在 给定课 程与学 号的情 况下查 找成绩 ，这一 数据结 构就很 实用。 
也就 是说， 它适 用于执 行如下 操作： 

/00%?((“CS1O1”,  12345，)， 课程- 学号- 成绩） 

不过 它对诸 如下面 这样的 操作来 说就不 实用。 

(1)  找出所 有选修 CS101 课程的 学生； 

(2)  找 岀学号 12345 的学 生选修 的所有 课程。 

在这 两种情 况下， 我们 都没法 计算散 列值。 例如， 只给定 课程， 就 没有学 号可加 到课程 名字符 
对应 整数的 和上， 因此 就没有 值除以 1009 以得岀 散列表 元号。 

不过， 假 设经常 要进行 “谁 选修了 CS101” 这样的 查询， 也就是 
Zoo 如〆 (“CS101”,  *,  *), 课程- 学号- 成绩） 

那 么使用 只基于 “ 课程” 组 分的值 的主结 构会更 有效。 也就 是说， 可以将 该关系 视作集 合论中 
的二元 关系， 其中定 义域是 课程， 而值 域则是 学号- 成绩有 序对。 

例如， 假设我 们将课 程名称 的字符 转换成 整数， 并求 岀它们 的和， 除以 197, 然后取 余数。 
那 么“课 程-学 号-成 绩”关 系的元 组就会 被该散 列函数 分装到 标号为 0 至 196 的 197 个 散列表 元中。 
不过， 如果有 100 个学生 选修了 CS101 课程， 那么 不管我 们为散 列表安 排了多 少个散 列表元 ，对 
应课程 CS101 的 散列表 元中都 至少有 100 个结 构体， 这 就是使 用不是 键的属 性作为 主索引 结构的 
定 义域的 缺点。 如 果其他 课程也 被散列 到对应 CS101 的散列 表元， 那么该 散列表 元中甚 至会有 
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100 个以 上的结 构体。 

另一 方面， 当 想要在 给定的 课程中 找到学 生时， 仍然 能从中 受益。 如 果课程 的数量 明显大 
于 197, 那 么平均 下来， 只 需要查 找整个 “ 课程- 学号- 成绩” 关系的 1/197, 这是 一笔巨 大的节 
省。 此外， 当我们 执行在 特定课 程中查 找特定 学生的 成绩， 或 是插入 或删除 “ 课程- 学号- 成绩” 
元组这 样的操 作时， 也会受 益于该 结构。 在 每种情 况下， 都可 以使用 “ 课程” 值 将查找 范围限 
定在 散列表 197 个散列 表元中 的某一 个上。 唯一 帮不上 忙的情 况就是 处理没 有指定 课程的 操作。 
例如， 要找 到学生 12345 选修的 课程， 就 必须查 找所有 的散列 表元。 这样的 查询只 有在使 用辅助 
索 引结构 时才可 以更有 效率地 进行， 这一 点会在 8.5 节中 讨论。 


设计 NI: 主索引 的选择 

□ 将关 系 模式的 键作为 函 数的定 义域， 并将其 余属性 作为值 域通常 是很实 用的。 

然 后就可 以像实 现函数 那样， 使用 诸如带 有基于 键属性 的散列 函数的 散列表 这样的 主索引 
来实现 关系。 

□不 过， 如果 最常见 的查询 所指定 的是不 构成键 的属性 的值， 就可能 要选用 该属性 集合作 
为定 义域， 而将 其余属 性作为 值域。 

接 着就可 以像实 现二元 关系那 样来实 现该关 系了。 比如， 利用散 列表。 唯 一的问 题就在 
于， 元 组在散 列表元 中的分 布可能 不像以 键作为 定义域 时那么 平均。 

□主 索引结 构定义 域的选 择可能 对执行 “ 常规” 查 询的速 度有着 最大的 影响。 


8.4.1 插入、 删 除和查 找操作 

鉴于第 7 章 中对二 元关系 的同样 主题的 探讨， 这 里用主 索引结 构执行 插入、 删 除和查 找操作 
的方式 应该很 明了。 要回 顾这些 概念， 就要将 注意力 放在作 为主索 引结构 的散列 表上。 如果操 
作 指定了 定义域 的值， 那 么就要 散列该 值以找 到散列 表元。 

(1)  要 插人元 组?， 就要检 查相应 的散列 表元， 看看 堤否已 经位列 其中， 如果 没有就 在该散 
列表 元对应 的链表 中创建 新单元 来容纳 L 

(2)  要删除 匹配规 M 勺元 组， 就要根 据义找 出定义 域值， 进行散 列以得 出相应 的散列 表元， 
然 后沿着 该散列 表元对 应的链 表向下 查找， 将 匹配规 M 勺各元 组都删 除掉。 

(3)  要根 据规范 义查找 元组， 还 是要从 Z 找到 定义 域值， 进行散 列以得 出相应 的散列 表元。 
沿着 对应该 散列表 元的链 表向下 查找， 将链 表中匹 配规范 Z 的各 元组 分别作 为回应 生成。 

如 果操作 没有指 定定义 域值， 就不会 这么走 运了。 插入 操作就 总是要 完整地 指定被 插人的 
元组， 而删除 或查找 操作可 能不能 这样。 在那 样的情 况下， 我们必 须对所 有的散 列表元 列表进 
行 查找， 找到 匹配的 元组， 并分 别删除 或列出 它们。 

8.4.2  习题 

(1)  8.3 节 中习题 (2) 的车 管所数 据库应 该设计 成能处 理如下 类型的 查询， 而 且要假 设这些 查询发 生的频 
率都相 当高。 

(a)  给定驾 驶员的 地址是 什么？ 

(b)  给定驾 驶员的 驾驶证 编号是 多少？ 
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(c)  给 定驾驶 证编号 对应驾 驶员的 姓名是 什么？ 

(d)  拥有给 定车辆 （以 其注册 号作为 标识） 的驾 驶员的 姓名是 什么？ 

(e)  具有给 定注册 号的车 辆的序 列号、 生产 商和型 号各是 什么？ 

(f)  拥 有给定 注册号 所对应 车辆的 是谁？ 

为 自己在 8.3 节习题 (2) 中 设计的 那些关 系给岀 合适的 主索引 结构， 每种情 况下都 使用散 列表。 
陈 述有关 驾驶员 数与车 辆数的 假设。 说出要 使用多 少散列 表元， 以及要 使用什 么属性 作为定 
义域。 这 几类查 询中有 多少可 以得到 高效的 回应， 也就 是说， 平均 只花费 0(1) 的时间 而不用 
考虑 关系的 大小。 

(2) 图 8-2(；中 “ 课程- 日子- 时刻” 关系 的主结 构可能 取决于 我们打 算执行 的常见 操作。 如果常 需要执 
行 的操作 分别为 下面列 岀的这 几类， 给岀合 适的散 列表， 要说 清定义 域中的 属性以 及散列 表元的 
数量。 大家 可以对 课程的 数量以 及不同 的上课 时段作 岀合理 假设。 在每种 情况下 ，像 “CS101” 
这样 的指定 值是用 来表示 “ 常见” 值的， 这样 的话， 我们的 意思是 “ 课程” 被指定 为某一 特定的 
课程。 

(a)  lookup (CCS10V\"M",*), 课 程-曰 子-时 刻）。 

(b)  课 程-曰 子-时 刻）。 

(c)  lookup (ccsior,*,*), 课 程-曰 子-时 刻）。 

(d)  ⑻类和 (b) 类各占 一半。 

(e)  ⑻类和 (c) 类各占 一半。 

(f)  (b) 类和 (c) 类各占 一半。 

8.5 辅助索 引结构 

假设把 “ 学号- 姓名- 地址- 电话” 关 系存储 到如图 8-4 所示、 散 列函数 是基于 “ 学号” 键的 
散列 表中。 该主索 引结构 有助于 回应那 些指定 了学生 学号的 查询。 不过， 我们可 能希望 以学生 
的姓名 提问， 而不是 用客观 而且可 能未知 的学号 提问。 例如， 我 们可能 会问， “名叫 C.Brown 的 
学生的 电话号 码是多 少？” 这 样一来 主索引 结构就 帮不上 忙了。 我 们必须 行经每 个散列 表元， 
并 检查一 列列的 记录， 直 到找到 “ 姓名” 字段 的值为 “C.Brown” 的记录 为止。 

要迅 速回应 这样的 查询， 就需 要额外 的数据 结构让 我们可 以用姓 名找到 “ 姓名” 组 分中含 
有该姓 名的元 组®。 可 以在给 定某一 属性或 某些属 性的值 的情况 下帮我 们找到 元组， 但不 能用来 
在 整个结 构中放 置元组 的数据 结构， 就 是辅助 索引。 

这里 我们需 要的辅 助索引 是具备 以下两 个条件 的二元 关系。 

(1)  定 义域是 “姓 名”。 

(2)  值域 是指向 “学 号-姓 名-地 址- 电话” 关系的 元组的 指针。 

一般 而言， 关系 尺 属性』 上的 辅助索 引是满 足以下 条件的 有序对 (v, 妁的 集合。 

(a)  v 是属性 屬值。 

(b) /7 是指 向关系 尺主索 引结构 中某个 元组的 指针， 该 元组的 组分 的值为 V。 

对属性 J 的值为 V 的各 元组 来说， 辅 助索引 都有对 应的有 序对。 


①要 记住， “ 姓名” 并不是 “学 号-姓 名-地 址- 电话” 关系 的键， 尽 管在图 8-2a 所示的 样本关 系中， 各元组 的姓名 
组分的 值都是 不同的 。例如 ，如果 Linus 和 Lucy 上了 同一所 大学， 那么就 有两个 元组的 姓名组 分等于 “L.  Van  Pelt", 
但 这两个 元组的 学号组 分是不 同的。 
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我们可 以使用 表示二 元关系 的任意 数据结 构来存 储辅助 索引。 通常 会期望 使用基 于属性 J 
的 值的散 列表。 只要 散列表 元的数 量不大 于属性 J 不 同值的 数量， 在给定 所需的 v 值的情 况下， 
在 散列表 中查找 有序对 (v, 妁 通常都 可以预 期不错 的性能 —— 也就 是平均 0(«/5) 的 时间。 这里 
的《 是有 序对的 数量， 而 5 是散列 表元的 数量。 为了表 明其他 的结构 也可以 用于辅 助索引 （或主 
索 引）， 我们在 下一个 示例中 要使用 二叉查 找树作 为辅助 索引。 


♦ 示例 8.10 

我们 来为图 8-2a 所示的 “学 号-姓 名-地 址- 电话” 关系设 计数据 结构， 其中使 用基于 学号的 
散列表 作为主 索引， 而 使用二 叉查找 树作为 对应姓 名属性 的辅助 索引。 为 了简化 表达， 这里要 
使用 只含两 个散列 表元的 散列表 作为主 结构， 而要使 用的散 列函数 是用学 号除以 2 的 余数。 也就 
是说， 偶 数学号 会放进 0 号散列 表元， 而奇 数学号 会放进 1 号散列 表元。 


typedef  struct  TUPLE  *TUPLELIST ; 
struct  TUPLE  { 

int  Student Id; 
char  Name [30] ; 
char  Address [50] ; 
char  Phone  [8] ; 

TUPLELIST  next; 

>； 

typedef  TUPLELIST  HASHTABLE  [2] ; 

typedef  struct  NODE  *TREE ; 
struct  NODE  { 

char  Name  [30] ; 

TUPLELIST  toTuple;  /* 其 实是指 向元组 的指针 */ 
TREE  lc; 

TREE  rc; 


图 8-5 对 应主索 引和辅 助索引 的类型 

这里 将使用 二叉查 找树作 为辅助 索引， 该 二叉查 找树的 节点中 存储着 由学生 姓名与 指向元 
组的 指针组 成的有 序对。 元组 本身被 存储为 记录， 这 些记录 链接成 链表， 构成了 散列表 的散列 
表元， 所 以指向 元组的 指针实 际上就 是指向 记录的 指针。 因此， 我们需 要如图 8-5 所 示的结 构体。 
TUPLE 和 HASHTABLE 类 型与图 8-3 中的定 义是一 致的， 只不 过现在 使用的 是两个 散列表 元而不 
是 1009 个。 

NODE 类 型是二 叉树的 节点， 它具有 Name 和 toTuple 这两个 字段， 分 别表示 该节点 处的元 
素 （即 某一学 生的姓 名）， 以及 指向该 学生对 应的元 组所在 记录的 指针。 而其余 的两个 字段， lc 
和 rc， 分别是 指向该 节点左 子节点 与右子 节点的 指针。 我们 会用学 生的姓 的字母 表次序 作为比 
较 树中接 点处各 元素所 使用的 “ 小于” 次序。 而辅 助索引 本身是 TREE 类型的 变量， 也就 是指向 
节点 的 指针， 它 会将我 们带到 该二叉 查找树 的根。 

图 8-6 展示 了整个 结构体 的一个 示例。 为 了节省 空间， 元 组的地 址和电 话组分 并没有 表示出 
来。 而 图中的 Z 1 和 Z2 等字 样表示 主索引 结构中 的 记录在 内存中 的存储 位置。 

现在， 如果 想要回 应诸如 “P.Patty 的电话 号码是 多少” 这样的 查询， 就要从 辅助索 引的根 
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开始， 查找 Name 字段为 “P.Patty” 的 节点， 并跟 着该指 针到达 toTuple 字段， 如图 8-6 中的 Z2 
所示。 这 样就可 以找到 P.Patty 的 记录， 并 从该记 录查阅 Phone 字段并 生成该 查询的 回应。 


散列表 

元头部 


⑻主索 引结构 


(b) 辅助索 引结构 

图 8-6 主索引 结构与 辅助索 引结构 的示例 

8.5.1 非 键字段 上的辅 助索引 

看起来 在示例 8.10 中构 建辅助 索引所 依据的 “ 姓名” 属性 是键， 因为没 有重复 出现的 姓名。 
不过， 正 如我们 所知， 存在两 个学生 同名的 可能， 所以 “ 姓名” 其实不 是键。 正如在 7.9 节讨论 
过的， 虽然非 键属性 可能让 元组在 散列表 元中的 分布不 如预期 的那样 平均， 但它 并不会 影响到 
散列表 的数据 结构。 

二叉查 找树是 另一个 问题， 因为这 种数据 结构不 能处理 不存在 “ 小于” 关系 的两个 元素， 
如果两 个有序 对有着 相同的 姓名和 不同的 指针， 就会出 现这种 情况。 对图 8-5 所示 结构进 行一个 
小的 修正 ，用 字段 t oTup  1  e 作 为指向 元组 的指针 组成的 链表的 表头， 具有 Name 字段中 给 定值的 
各元组 都与一 个指针 对应。 例如， 如果有 很多个 P.Patty, 那么图 8-6b 中底部 的节点 就会在 Z2 的 
位 置具有 链表的 表头。 而该链 表中的 元素就 是指向 “ 姓名” 属 性等于 “P.Patty” 的各 元组的 
指针。 
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设计 VI: 何时 应该创 建辅助 索引？ 

如 果元组 的一个 或多个 组分的 值已经 给定， 辅助 索引的 存在通 常会让 查找元 组的工 作变得 
更容易 Q 不过 还要考 虑如下 两点。 

□ 所 创建的 每个辅 助索引 都会 让我们 在关系 中插 入或删 除信息 时花费 额外的 时间。 

□ 因此， 只为那 些可能 需要查 找数据 的属性 构建辅 助索引 是说得 通的。 

例如， 如果 从不打 算在只 给定电 话号码 的情况 下找到 学生， 就没 必要在 “学 号-姓 名-地 址-电 
话” 关 系中的 “ 电话” 属 性上创 建辅助 索引。 


8.5.2 辅助索 引结构 的更新 

当 某个关 系存在 辅助索 引时， 元组的 插人和 删除操 作就会 变得更 困难。 除 了要像 8.4 节概述 
的那 样更新 主索引 结构， 还可能 需要更 新各辅 助索引 结构。 以下方 法可用 来在涉 及属性 2 的元 
组被插 入或删 除时更 新基于 J 的辅 助索引 结构。 

(1)  插入。 如果 要插入 一个新 元组， 其对 应属性 』 的组分 的值为 V， 就必 须创建 有序对 (V,；?)， 
其 中^ 是指向 主结 构中新 记录的 指针。 然后， 再把 有序对 (V,;?) 插入到 辅助索 引中。 

(2)  删除。 要删 除对应 2 的组分 的值为 v 的元 组时， 首先一 定要记 得已经 删除了 指向该 元组的 
指针， 比 方说是 然后， 要 深入辅 助索引 结构， 并检 查所有 第一个 组分为 v 的有 序对， 直到从 
其中找 出第二 个组分 为;? 的 有序对 为止。 然后将 该有序 对从辅 助索引 结构中 删除。 

8.5.3  习题 

⑴给 出如何 修改图 8-5 中 的二叉 查找树 结构， 以使 “学 号-姓 名-地 址- 电话” 关 系可以 存在学 生姓名 
相同 的多个 元组。 编写 C 语言 函数， 接受姓 名作为 参数， 并列出 关系中 “ 姓名” 属 性为该 姓名的 
所有 元组。 

(2) ** 假设已 决定用 “ 学号” 属 性上的 主索引 来存储 “学 号-姓 名-地 址- 电话” 关系， 还决定 创建一 
些辅助 索引。 假设所 有的查 找都只 会指定 姓名、 地 址或电 话属性 中的某 一个。 并假 设所有 的查找 
操 作中有 75% 是指 定了姓 名的， 有 20% 是 指定地 址的， 还有 5% 是 指定电 话的。 还假 设每次 插人或 
删除操 作的开 销都是 1 个时间 单位， 再加 上我们 构建的 每个辅 助索引 会用掉 1/2 个时间 单位。 比方 
说， 如果我 们要构 建所有 3 个辅 助索引 的话， 总的 时间开 销就是 2.5 个时间 单位。 设 如果指 定了具 
有辅助 索引的 属性， 那 么一次 查找的 开销是 1 个时间 单位， 而如 果指定 的属性 没有辅 助索弓 1 则会花 
费 10 个时间 单位。 设 a 是 对指定 了全部 3 项 属性的 元组进 行的插 人和删 除操作 所占的 比例。 其余的 
1-fl 是指 定了某 一项属 性的操 作所占 比例， 并且 符合我 们之前 对这类 查找操 作岀现 概率的 假设。 
比如， 所有操 作中有 0.75(l-a) 的 比例是 给定了  “ 姓名” 值的 查找。 如果目 标是让 一次操 作的平 
均 时间最 小化， 那么 当参数 a 的值分 别为⑻ 0.01;  (b)0.1；  (c)0.5；  (d)0.9；  (e)0.9 卯寸, 分别应 该创建 
哪 些辅助 索引？ 

(3)  假设 车管所 希望能 高效回 应如下 类型的 查询， 也就 是说， 要比查 找整个 关系快 得多。 

(0 给定驾 驶员的 姓名， 找到发 放给具 有该姓 名的人 们的驾 驶证。 

(ii)  给定 驾驶证 编号， 找到驾 驶员的 姓名。 

(iii)  给定 驾驶证 编号， 找 到该驾 驶员拥 有的车 辆的注 册号。 

(vi) 给定 地址， 找到所 有登记 为该地 址的驾 驶员的 姓名。 

(v) 给定 注册号 （ 即车牌 号）， 找 到该车 辆所有 者的驾 驶证。 

为 8.3 节习题 (2) 中 建立的 关系给 岀合适 的数据 结构， 从 而使得 这些查 询能得 到高效 回应。 假 设每个 
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索引都 是从散 列表构 建的， 并说 岀各关 系的主 索引结 构和辅 助索引 结构， 这 样就足 够了。 解释一 
下 这样一 来要如 何回应 各类型 的 查询。 

(4)  * 假设需 要高效 地从给 定的辅 助索引 中找到 指向主 索引结 构中特 定元组 〖的 指针。 给 岀数据 结构， 
让我 们能在 与找到 的指针 数成正 比的时 间内找 到这些 指针。 哪 些操作 会因为 这一额 外的数 据结构 
而变 得更加 费时？ 

8.6 关系间 的导航 

直到 现在， 我 们只考 虑了涉 及单一 关系的 操作， 比如在 给定元 组的一 个或多 个组分 的值的 
情况下 找到该 元组。 关 系模型 的威力 要得到 最好的 体现， 就需 要考虑 那些要 求我们 “ 导航” ，或 
者 说从一 个关系 跳转到 另一个 关系的 操作。 例如， 我们 在回应 “ 学号为 12345 的学生 CS101 课程 
的 成绩是 多少” 这 样的查 询时， 所有 的处理 都是在 “ 课程- 学号- 成绩” 关系 之内展 开的。 不过， 
如 果查询 是更为 自然的 “C.Brown 在 CS101 课程 中取得 了怎样 的成绩 ”呢？ 该查 询只在 “课程 - 
学号- 成绩” 关 系之内 就不能 得到回 应了， 因为该 关系使 用的是 学号， 而非 姓名。 

要回 应这一 查询， 首先必 须查阅 “ 学号- 姓名- 地址- 电话” 关系， 并 将姓名 C.Brown 转换成 
一个 学号， 或若干 学号， 因为有 可能存 在两个 或多个 学生姓 名相同 而学号 不同的 情况。 然后， 
对每个 这样的 学号， 都要在 “ 课程- 学号- 成绩” 关系 中查找 对应该 学号而 且课程 组分为 CS101 
的元组 。 可 以从每 个这样 的元组 中读取 岀名为 C.Brown 的学生 CS101 课程的 成绩。 图 8-7 表示了 
该查 询是如 何将给 定值与 这些关 系以及 所需的 回应联 系在一 起的。 

UC.  Brown” 


“CS101” 

学号 

姓名 

地址 

电话 

1 

课程 

学号 

成绩 

回答 

图 8-7 表 示查询 “C.Brown 在 CS101 课程中 取得了 怎样的 成绩” 的图 

如果没 有索引 可用， 回应 该查询 就可能 会相当 费时。 假设在 “学 号-姓 名-地 址-电 话”关 
系中有 〃个 元组， 而且在 “ 课程- 学号- 成绩” 关 系中有 m 个元 组。 再假 设名叫 C.Brown 的 学生共 
有灸 个。 在假 设没有 索引可 用的情 况下， 找 岀这一 （或 这些） 学生在 CS101 课程拿 到的成 绩的算 
法提纲 就如图 8-8 所示。 

接着来 确定图 8-8 所 示程序 的运行 时间。 从 里层开 始向外 分析， 第 (6) 行的 打印语 句要花 0(1) 
的 时间。 而第 (5) 和第 (6) 行的条 件语句 也要花 0(1) 的 时间， 因为第 (5) 行的 测试是 0(1) 时 间的测 
试。 由 于我们 假设在 “ 课程- 学号- 成绩” 关 系中有 m 个元 组， 这样 一来， 第 (4) 到第 (6) 行 的循环 
要迭代 m 次， 因此总 共要花 0(m) 的时 间。 因为第 (3) 行花 费的是 0(1) 时间， 所以第 (3) 到第 (6) 行的 
程序块 花的时 间就是 。 

现 在考虑 一下第 (2) 到第 (6) 行的 if 语句。 因为第 (2) 行的测 试花费 0(1) 的 时间， 所以 如果条 
件为假 则整个 if 语 句花费 0(1) 时间， 如 果为真 则花费 0(m) 的时 间。 不过， 我们 已经假 设了该 
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for  “ 学号- 姓名- 地址- 电话” 关 系中的 各元组 /  do 
if  f  的 “ 姓名” 组分为  “C.  Brown”  begin 
设 / 是元组 / 的 “ 学号” 组分； 
for  “课程 -学号 -成绩 关系” 中的 各元组 s  do 
if  s 的 “ 课程” 组分为 “csioi” 且 
“ 学号” 组分为 /  then 

print 元组 s 的 “ 成绩” 组分； 

end 


条件对 &个 元 组为真 而对其 余元组 为假， 也就 是说， 有 Fh 元组? 的姓名 组分是 C.Brown。 因为当 
条件 为真与 条件为 假时所 花的时 间存在 很大的 区别， 所以 应该对 分析第 (1) 到第 (6) 行的 for 循环 
的 方式格 外谨慎 小心。 也就 是说， 我们 不能记 下循环 迭代的 次数并 将其乘 上循环 体可能 花费的 
最大 时间， 而是 要分开 考虑第 (2) 行测试 的两种 结果。 


图 8-8 找到 C.Brown 在 CS101 课 程取得 的成绩 

首先， 要进行 《次 循环， 因为 这是不 同値的 数量。 对令第 (2) 行的 测试 为真的 &个 元组冻 说， 
我 们在每 个元组 上所花 时间为 0(m) ， 或者 说总共 要花上 O(Am) 的 时间。 •其余 个令 该测试 
为假 的元组 来说， 每个元 组要花 0 ⑴的 时间， 或 者说总 共要花 -幻 的时间 。 因 为估计 A 是大 
大小于 《 的， 所以我 们选择 0 ⑻而非 00- 幻作 为更简 单的紧 上界。 因此整 个程序 的时间 开销就 
^0{n  +  km)o 在 很可能 出现的 灸=1 的情 况中， 当 只有一 个学生 姓名为 C.Brown 时， 所需 的时间 
就是 0(«  +  m)， 它是 与所涉 及两个 关系的 大小之 和成正 比的。 如果 &大于 1， 这个时 间就会 更大。 

8.6.1 利用索 引为导 航提速 

有了 合适的 索引， 我 们在回 应同样 的查询 时平均 只需要 0(幻 的时 间， 也就 是说， 如 果名字 
叫 C.Brown 的 学生数 A 为 1， 就 只需要 0 ⑴的 时间。 这样 是说得 通的， 因为 我们肯 定会检 查及个 
元组， 就 是两个 关系各 要检查 A 个。 如果散 列表使 用了数 量恰当 的散列 表元， 这些 索引让 我们能 
以 平均每 个元组 0 ⑴时 间的开 销找到 所需的 元组。 如果拥 有对应 “ 学号- 姓名- 地址- 电话” 关 
系的 “ 姓名” 索引， 以 及对应 “ 课程- 学号- 成绩” 关系的 “ 课程- 学号” 有 序对上 的索引 ，那 
么找岀 C.Brown 在 CS101 课 程中取 得的成 绩的算 法可以 大致描 述为图 8-9 所示的 样子。 


图 8-9 使 用索引 找到 C.Brown 在 CS 10 1 课程 中取得 的成绩 

我 们假设 “ 姓名” 索引是 具有约 《个 散列表 元的散 列表， 是用作 辅助索 引的。 因为 《 是“学 
号- 姓名- 地址- 成绩” 关系中 的元组 数量， 所以每 个散列 表元中 平均有 0 ⑴个 元组。 如 果具有 
该 姓名的 元组有 FK 在 散列表 元中找 到这些 元组就 要花费 0( 幻的 时间， 而且跳 过该散 列表元 
中可能 存在的 其他元 组要花 0 ⑴的 时间。 因此， 图 8-9 的第 (1) 行平 均要花 0 ⑷的 时间。 


(1)  使用 “ 姓名” 上的 索引， 找到 “ 学号- 姓名- 地址- 成绩” 关系中 
“ 姓名” 组分为 “C.Brown” 的各 元组； 

(2)  for 步 骤 (1) 中找到 的 各元组 t  do  begin 

(3)  设 i 是元组 t 的 “ 学号” 组分；  ' 

(4)  使用 “ 课程- 学号- 成绩” 关系中 “课 程”和 “ 学号” 上的 索引， 
找到 “ 课程” 组分为 “CS101” 而且 “ 学号” 组分为 i 的元组 s; 

(5)  print 元组 s 的 “ 成绩” 组分； 

end 


\ — /  - - S  - - S  \ — /  \ ~ /  \ — / 

12  3  4  5  6 

/ \  / ― \  / ― \  / — ^  / \  / — . 
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第 (2) 到第 (5) 行 的循环 要执行 A 次。 假设 把在第 (1) 行找 到的 &个 元组? 存储 在一个 链表中 ，那 
么不 管是找 到下一 个元组 ?， 还是发 现没有 更多的 元组， 进行 循环所 花的时 间都为 0 ⑴， 而且第 
(3) 到第 (5) 行 的开销 也是一 样的。 我们 声明第 (4) 行 也能在 0(1) 时间内 执行， 因此第 (2) 到第 (5) 行 
的运行 时间 也是 0(k) 。 

下面 来分析 一下第 (4) 行。 第 (4) 行要求 在给定 某一元 组的键 值的情 况下对 其进行 查找。 假设 
“ 课程- 学号- 成绩” 关系具 有其键 { 课程， 学号 } 上的主 索引， 而且 该索引 是约有 m 个散列 表元的 
散 列表。 那么， 每个 散列表 元中所 含元组 的平均 数就是 0(1)， 因此图 8-9 的第 (4) 行所 花的 时间就 
是 0(1) 。 这样我 们就能 得出第 (2) 到第 (5) 行 的循环 体平均 会花费 0(1) 的 时间， 因此图 8-9 所示的 
整 个程序 就平均 会花费 0( 幻的 时间。 也就 是说， 这一 时间开 销是与 具有我 们要查 询的姓 名的学 
生的数 量成比 例的， 而不 用考虑 涉及的 关系的 大小。 

8.6.2 多 关系上 的导航 

有 些导航 技巧让 我们可 以高效 地从一 个关系 跳转到 另一个 关系， 这些 技巧也 可以用 于涉及 
多个 关系的 导航。 例如， 假设 想知道 “C.Brown 星期 一上午 9 点在哪 里？” 假 设他在 上课， 我们 
就可以 通过如 下方式 回应该 查询， 找到 C.Brown 选修的 课程， 看看 其中是 否有课 是在星 期一上 
午 9 点上， 如果有 的话， 找到 该课程 上课的 教室就 行了。 图 8-10 展 示了从 给定值 C.Brown 到得岀 
的 回应期 间在各 关系间 的 导航。 


C.  Brown 


回答 

图 8-10 表示 “C.Brown 星期 一上午 9 点在 哪里” 这一查 询的图 


以下方 案假设 只有一 个名为 C.Brown 的 学生， 如 果有多 个名叫 C.Brown 的 学生， 就可 以得到 
星期 一早上 9 点 他们中 的一个 或多个 人所在 的教室 。这 里还假 设这名 学生没 有选修 相互冲 突的课 
程， 也就 是说， 他 在星期 一早上 9 点最多 只上一 门课。 

⑴利 用对应 C.Brown 的 “ 学号- 姓名- 地址- 电话” 关系， 找到 C.Brown 的 学号， 设他 的学号 
为，。 

(2)  在 “ 课程- 学号- 成绩” 关系中 查找所 有学号 组分为 / 的元 组， 设 {^，…， 是这 些元组 
中 “ 课程” 值的 集合。 

(3)  在 “ 课程- 日子- 时刻” 关 系中， 查找 “ 课程” 组分为 Q  (即第 (2) 步 中找到 的课程 之一） 
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的 元组。 应该 最多只 有一个 元组的 “ 日子” 组分为 “M” 而且 “ 时刻” 组分为  “9AM”。 

(4) 如果第 (3) 步中 找到的 是课程 c， 那么在 “ 课程- 教室” 关系 中查找 c 上课的 教室。 假设 
C.Brown 没打算 旷课， 这就是 他星期 一上午 9 点 所在的 位置。 

如 果没有 索引， 那 么我们 可以期 待的最 佳情况 就是， 在与 涉及的 4 个关 系的大 小之和 成比例 
的时 间内完 成这一 方案。 不过， 有 若干个 索引可 供我们 利用。 

(a)  在第 (1) 步中， 可 以使用 “ 学号- 姓名- 地址- 电话” 关 系中的 “ 姓名” 组分作 为索引 ，从 
而在 平均为 0(1) 的时间 内得到 C.Brown 的 学号。 

(b)  在第 (2) 步中， 假设 C.Brown 选 修了们 课程， 可 以利用 “ 课程- 学号- 成绩” 关系中 的“学 
号” 组 分上的 索引， 在 0(幻 的时间 内得到 C.Brown 选修 的所有 课程。 

(c)  在第 (3) 步中， 可 以利用 “ 课程- 日子- 时刻” 关系中 “ 课程” 组 分上的 索引， 这样一 
来， 就可以 在与第 (2) 步得到 的&门 课程每 周上课 次数之 和成比 例的时 间内， 找 出这些 
课 程全部 的上课 时间。 如果 假设每 门课程 每周上 课次数 不超过 5 次， 那么最 多只有 5灸 
个 元组， 因此 可以在 0( 幻的平 均时间 内找到 它们。 如 果没有 该关系 “ 课程” 属 性上的 
索弓 I， 而是有 “日 子”和 （或） “ 时刻” 属性上 的索弓 I， 虽 然可能 要查看 远多于 0( 幻数 
量 的元组 （取 决于 星期一 要上多 少课， 或是某 一天的 9 点要 上多少 课）， 但还是 能从这 
种 索引中 受益。 

(d)  在第 (4) 步中， 可 以利用 “ 课程- 教室” 关系中 “ 课程” 属 性上的 索引。 在 这种情 况下， 
可以在 平均为 0(1) 的时 间内检 索到所 要找的 教室。 

这 样就可 以得出 这样的 结论， 有了所 有这些 合适的 索引， 可以在 0( 幻 的平均 时间内 回复这 
些非常 复杂的 查询。 因为可 以假设 C.Brown 所选 课程的 数量对 艮小， 比方说 5 门 左右， 那么 这一时 
间通 常会特 别少， 而 且特别 要指出 的是， 该 时间与 所涉及 关系的 大小都 无关。 


总结： 关 系的快 速访问 

回 顾一下 我们从 渐趋复 杂的关 系中获 得答案 的方式 是很实 用的。 首 先是在 7.8 节使 用散列 
表 或诸如 二叉查 找树或 （概括 化的） 特征 向量这 样的结 构实现 函数， 按照 本章中 的内容 来看就 
是定义 域为键 的二元 关系。 然后， 在 7.9 节中 看到， 只要关 系是二 元的， 这些概 念也适 用于定 
义域不 为键的 情况。 

在 8.4 节中 看到， 并 不需要 要求关 系是二 元的， 可以将 属于键 的一部 分的全 部属性 作为一 
个 “定 义域” 集合， 而将所 有其他 属性作 为一个 “ 值域” 集合。 此外， 我们在 8.4 节中 还看到 
定 义域不 一定要 是键。 

在 8.5 节中 我们了 解到， 可 以使用 某关系 上的多 个索引 结构， 提供基 于不属 于定义 域的属 
性 的快速 访问。 而且在 8.6 节 中我们 看到， 可 以结合 多个关 系上的 索引， 在与实 际查阅 的元组 
数成 比例的 时间内 执行复 杂的信 息 检索。 


8.6.3  习题 

(1) 假设图 8-9 中的 “ 课程- 学号- 成绩” 关系 不具备 “ 课程- 学号” 对上的 索引， 而是只 有课程 这一个 
属 性上的 索引。 这 会对图 8-9 所示 程序的 运行时 间造成 怎样的 影响？ 如果 索引只 建立在 “学 号”属 
性 上呢？ 
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(2)  讨 论一下 如何高 效地回 应下列 查询。 在每 种情况 下都要 陈述对 中间集 合的元 素数量 （ 比如， 
CBrown 所选 课程的 数量） 作岀的 假设， 还要讲 岀都假 设有哪 些索引 存在。 

(a)  找到 C.Brown 所 选课程 的所有 前提。 

(b)  找 到会在 Turing  Aud. 上 课的所 有学生 的电话 号码。 

(c)  找到 CS206 课程 的前提 课程的 前提。 

(3)  假设没 有索弓 |， 那 么习题 (3) 中的各 查询要 花多少 时间， 将 其表示 为所涉 及关系 的大小 的函数 ，其 
中要对 所有元 组进行 迭代， 就 像本节 的那些 示例中 一样。 

8.7 关 系代数 

我们在 8.6 节中 看到， 涉及多 个关系 的查询 可能是 相当复 杂的。 用 一种比 C 语言 “高级 得多” 
的语 言来表 示这样 的查询 是很实 用的， 和 C 语言 不同 的是， 这种语 言中的 查询在 表示我 们想要 
的内 容时， 比如， “ 课程” 组 分等于 CS101 的所有 元组， 可以 不需要 处理诸 如在索 引中进 行查找 
操作 这样的 问题。 岀 于这种 目的， 一种 名为关 系代 数的语 言应运 而生。 

就像任 何代数 那样， 关系 代数让 我们可 以应用 代数法 则改写 查询。 因 为复杂 的查询 通常有 
很 多不同 的步骤 序列， 我们要 借助这 些步骤 从存储 的数据 中得到 查询的 回应， 而 且因为 不同的 
步骤序 列是由 不同的 代数表 达式表 示的， 所以 关系代 数提供 了一个 将代数 作为设 计理论 的绝佳 
例子。 其实， 这 种借助 关系代 数表达 式的变 形实现 的效率 提升， 可 视作代 数的力 量在计 算机科 
学 中得到 体现的 最突岀 示例。 代 数变形 带来的 “优 化” 查询的 能力是 8.9 节的 主题。 

8.7.1 关系 代数的 操作数 

在 关系代 数中， 操作 数都是 关系。 与其 他代数 一样， 这里的 操作数 既可以 是常量 —— 在这 
种情况 下就是 指定的 关系， 也可 以是表 示未知 关系的 变量。 不过， 不 管是变 量还是 常量， 每个 
操 作数都 有特定 的模式 （为 关系中 的列命 名的属 性的集 合)。 因此， 常量参 数可能 是像下 面这样 


该 关系的 模式是 以， 5,  C}， 它含有 3 个 元组， （0， 1， 2)、 （0,  3,  4) 和 (5,  2,  3)。 

变量参 数可以 用价為 5C) 表示， 它表 示被称 为尺的 关系， 该 关系的 各列分 别名为 3、 5 和 C， 
但其 组分集 合是未 知的。 如 果关系 i? 的模式 5, 是 可以理 解或是 无关紧 要的， 就 可以将 i? 当作 
操 作数。 

8.7.2 关 系代数 的集合 运算符 

首先要 使用的 3 种运 算符是 常见的 集合元 算：并 、交 、差， 我们在 7.3 节 中讨论 过这些 运算。 
这里 要对这 些运算 符的操 作数提 岀一个 要求： 两个 操作数 的模式 一定要 相同。 这样 一来， 结果 
的模 式就自 然是这 两个参 数的模 式。 

♦ 示例 8.1 1 

设尺和 ^ 分别 是图 8-lla 和图 8-llb 中的 关系。 请 注意， 这两 个关系 的模式 都是从 5}。 并集运 
算符会 生成这 样一个 关系， 其中 各元组 要么在 中， 要么在 ^ 中， 或者是 在两者 之中。 请 注意， 
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因为 关系是 集合， 所以即 便某元 组可能 同时出 现在财 狀中， 该元组 在得到 的关系 中也最 多只能 
岀现 一次， 就像 本例中 的元组 (0,1) 这样。 关系 t/us 如图 8-llc 所示。 

交集 运算符 会生成 由同时 出现在 两个操 作数中 的元组 构成的 关系。 因此， 关系 只含 
有元组 (0,1)， 如图 8-iid 所示。 差 集运算 生成的 关系包 含那些 在第一 个关系 中而不 在第二 个关系 
中的 元组。 关系 尺-S 如图 8-lle 所示， 具有 及 中的 元组 (2, 3)， 因 为该元 组不在 S 中， 而它 不含尺 
中 的元组 (0,1)， 因为 这一元 组也在 S 中。 


5 


⑻充  (b)  ^ 


(c) 及  u  (d)  R  0  S  (e)  R  -  S 

图 8-11 关系代 数运算 的示例 


8.7.3 选择 运算符 

关 系代数 中的其 他运算 符是用 来执行 本章中 研究的 这些操 作的。 例如， 我们 经常想 从关系 
中提 取出满 足某些 条件的 元组， 比如从 “ 课程- 学号- 成绩” 关系中 提取出 “ 课程” 组分为 CS101 
的所有 元组。 为达 成这一 目的， 要使用 选择运 算符。 该 运算符 接受一 个关系 作为操 作数， 但还 
要接受 一个条 件表达 式作为 “参 数”。 我 们把选 择运算 符写为 其中 a  (小 写的希 腊字母 
西 格玛） 是表示 选择的 符号， C 是 条件， 而 i? 是 关系操 作数。 条件 C 可以 用关系 R 的模式 中的属 
性以 及常数 作为操 作数。 条件 C 可以 使用 的运算 符就是 常用于 C 语言条 件表达 式中的 那些， 也就 
是算术 比 较符和 逻辑连 接符。 

这一 运算的 结果是 模式与 i? 的模式 相同的 关系。 我们 要把在 将条件 C 中 的属性 J 替换 为元组 ^ 
对应列 J 的组 分时使 得条件 C 为真 的每个 元组? 都放 入该关 系中。 

♦ 示例 8.12 

设 CSG 表示图 8-1 中的 “ 课程- 学号- 成绩” 关系。 如果 想要那 些课程 组分为 “CS101” 的元 
组， 就 可以写 出如下 表达式 

<y  =iics  1  o  1 !,( CS G) 

这一表 达式的 结果是 模式与 CSG 相同， 也就 是具有 {课 程， 学号， 成绩} 模式的 关系， 而 且元组 
的集合 就如图 8-12 所示。 也就 是说， 只 有这些 “ 课程” 组分为 CS101 的 元组才 能使条 件为真 。这 
样 一来， 当 我们用 CS101 替换了  “课 程”， 条件 就成了 CS101  =CS101。 如果该 元组的 “ 课程” 
组分 有其他 的值， 比如 EE200, 就得到 EE200  =  CS101 这样 的不成 立的表 达式。 
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课  程 

学  号 

成  绩 

CS101 

12345 

A 

CS101 

67890 

B 

CS101 

33333 

A- 

图 8-12 表达式 (7课程=“^1()1，，(0犯)的结果 


8.7.4 投影 运算符 

选 择运算 符会生 成某关 系删除 若干行 之后的 副本， 而我 们经常 想要生 成关系 删除若 干列之 
后的 副本。 为达 到这一 目的， 我 们还有 用符号 77 表示的 投影运 算符。 和选择 一样， 投影 运算符 
也 是接受 一个关 系作为 参数， 它还 要接受 另一个 参数， 就是 从作为 参数的 关系的 模式中 选取的 
属性 列表。 

如果 尺 是具 有属性 集合从 ，…， 為}的 关系， 而 (的 ，…， 凡) 是某些 J 组成的 列表， 那么 
7TB '，… ， B  (R) ， 关系 A 到属性 …，凡上的 投影， 是按照 以下方 式形成 的元组 集合。 取尺中 的元组 

t, 提取 其属性 中的 组分， 假设这 些组分 分别是 &,•••,&， 然后将 元组⑹ …，心) 添加到 
关系％ ， 幻中。 请 注意， A 中可 能有不 止一个 元组在 故， …，札 中的 组分都 相同。 如 果这样 
的话， 这些 元组的 投影只 有一个 副本会 进人; rSi， (幻， 因 为该关 系和所 有关系 一样， 不可能 
含有某 一元组 的多个 副本。 

♦ 示例 8.13 

假设 只想看 到选修 CS101 课程的 学生的 学号。 可 以应用 与示例 8.12 相同 的选择 运算， 这样就 
给出了 CSG 关 系中所 有对应 CS101 的 元组， 不过 之后还 必须将 课程和 成绩投 影掉， 也就 是只投 
影到 “学号 ”上。 执行这 两项运 算的表 达式为 

冗学号 ( ^^="05101"  (CSG)  j 

该表达 式的结 果是图 8-12 的 关系投 影到其 “ 学号” 组 分上， 也就 是如图 8-13 所示 的一元 关系。 


学  号 
12345 
67890 
33333 

图 8-13 选修 CS101 的学生 


8.7.5 关系 的联接 


最后， 我们需 要一种 方式， 用来表 示两个 关系被 关联起 来从而 可以从 一个关 系向另 一个关 
系 导航的 概念。 为了达 成这一 目的， 要使用 表示为  ><  的联 接运 算符。 $假 设有两 个关系 i? 和& 
其属 性集合 （模 式） 分另1 j 为 {為， •••,  An}^{Bx,  •••,  Bm}0 我们从 两个集 合中各 选出一 个属性 ，比 
方说 是為和 5,.， 而这些 属性将 成为以 和 ^ 为参数 的联接 运算的 参数。 


①我 们这里 描述的 “ 联接” 不 如关系 代数中 常见的 联接运 算更一 般化， 但它可 以用来 让我们 从这一 运算符 受益， 
而不 用深人 到该主 题的所 有复杂 性中。 
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要形成 i? 和劝 勺写作 S 的这种 联接， 就要从 7? 中取出 各元组 r, 并从 ^ 中 取出各 元组站 口以 
比较。 如 果元组 rXf 应為的 组分等 于元组 sXt 应 5 /的 组分， 就从 r 和 \形 成一个 元组， 否则， 就不会 
从 r 和 s 的配对 中创建 元组。 要从 r 和 s 形成 元组， 就要取 r 中的 组分， 后面加 上5 中的所 有组分 ，但 
要去 掉对应 组分， 因 为它和 r 中 对应為 的组 分是相 同的。 

关系 就是上 述方式 所形成 的元组 构成的 集合。 请 注意， 若 i? 的為 列和 S 的 巧列 都没有 
值 岀现， 则这一 关系也 可能不 含任何 元组。 在 另一种 极端情 况下， i? 中每 个元组 4 组分的 值都相 
同， 而 该值也 出现在 S 中每个 元组的 巧组 分里。 那么， 联 接得到 的关系 中元组 的数量 就等于 i? 中 
元组数 量乘以 ^ 中元 组数量 的积， 因为元 组的每 个有序 对都能 匹配。 一般 而言， 真 相就藏 在这些 
极端情 况之间 的某个 地方， i? 中的各 元组与 中 的一些 （而非 全部） 元组 配对。 

联接 得到的 关系的 模式是 {為 ，… ，尤 的， …,  5/+1 ，… ,  ， 也就是 和 S 中除 巧之 外的全 
部属性 构成的 集合。 不过， 还是可 能有属 性重名 的情况 岀现， 如 果说是 J 中的 某一 属性与 5 中 （除 
& 之外， 不是要 联接的 属性） 的某 一属性 相同。 如果出 现这种 情况， 这一 对相同 的属性 中就必 
须有一 个要重 命名。 

♦ 示例 8.14 

假设我 们要对 “ 课程- 日子- 时刻” 关系 （简称 CDi/) 和 “ 课程- 教室” 关系 （简称 CA) 进 
行 连接。 例如， 我们 可能想 知道每 间教室 都有哪 些时间 是在上 课的。 要回 应这一 查询， 就必须 
将来自 C7? 的各元 组与来 CD// 的 各元组 配对， 要 求配对 的两个 元组的 课程组 分是相 同的， 也就是 
说， 这两 个元组 说的是 相同的 课程。 因此， 如果 在要求 二者的 “ 课程” 属 性相等 的情况 下联接 
CR 和 C 皿， 就会得 到具有 {课 程， 教室， 日子， 时刻} 模式的 关系， 它所含 的元组 0， r， /0 
满足 (c， r) 是 C7? 的 元组且 (c， A  ；0 是 CD// 的元组 这两个 条件。 定 义该关 系的表 达式为 

CR  x  CDH 

课程 = 课程 

假设 C7? 和 CDi/ 关系 含有图 8-2 中 的那些 元组， 那 么该表 达式产 生的关 系的值 就如图 8-14 所示。 


课  程 

教  室 

日子时  刻 

CS101 

Turing  Aud. 

M  9  AM 

CS101 

Turing  Aud. 

W  9  AM 

CS101 

Turing  Aud. 

F  9  AM 

EE200 

25  Ohm  Hall 

Tu  10  AM 

EE200 

25  Ohm  Hall 

W  1PM 

EE200 

25  Ohm  Hall 

Th  10  AM 

图 8-14 课程 = 课程上 a? 和 CD// 的联接 

要 知道图 8-14 中的 关系是 如何构 建的， 就要考 虑一下 C7? 的 第一个 元组， (CS101,  Turing 
Aud.)o 我们 要检查 CD// 中那些 “ 课程” 值也是 CS101 的 元组。 在图 8-2c 中， 可以 看到前 3 个元组 
都 是能匹 配的， 而且 我们可 以由这 些元组 构建图 8-14 的前 3 个 元组。 例如， CD// 的第一 个元组 
(CS101,  M,  9AM) 与元组 （CS101,  Turing  Aud. ) 联接， 就得 到了图 8-14 的第一 个元组 。要 
注 意该元 组是如 何与构 成它的 两个元 组各自 对 应的。 

同样， C7? 的第二 个元组 （EE200  ,  25  0hmHall) 与 CIW 的后 3 个元 组有着 相同的 “ 课程” 组分。 
这 3 个配 对就构 成了图 8-14 中的后 3 个通。 而 a? 的 最后一 个元组 （PH100,  NewtonLab.) 的 “ 课程” 
组分与 CD// 任一 元组的 “ 课程” 组分都 不同。 因此， 该元 组没有 对这一 联接作 出任何 贡献。 
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8.7.6 自 然联接 

当我们 联接两 个关系 和 ^ 时， 常 会遇到 要等同 的属性 同名的 情况。 如果此 外还有 i? 和 ^ 没有 
其他属 性同名 ，那么 就可以 将联接 的参数 省略， 将其简 写为尺 这 样的联 接就叫 作自然 联接。 

例如， 示例 8.14 中的 联接就 是自然 联接。 要等 同的属 性都叫 “课 程”， 而 C7? 和 CO// 中其他 
属性 的名称 都是不 同的。 因 此我们 可以将 该联接 简写为 CD//。 

8.7.7 关系代 数表达 式的表 达式树 

就像 为算术 表达式 绘制表 达式树 那样， 可以将 关系代 数表达 式表示 为树。 叶 子都是 用操作 
数 标记， 也 就是用 特定的 关系或 是表示 关系的 变量来 标记。 每 个内部 节点都 是由运 算符标 记的， 
如果是 选择、 投影 或联接 （除 了不需 要参数 的自然 联接） 运 算符， 还 要包括 运算符 的参数 。各 
内 部节点 iV 的 子节点 都是表 示应用 了节点 处 的运算 符的操 作数。 


图 8-15 关 系代数 中的表 达式树 


♦ 示例 8.15 

接 着示例 8.14 的 情况， 假设我 们想知 道的不 是整个 关系， 而 只是想 知道在 Turing 
Aud. 有课的 “ 日子- 时刻” 对。 然后 我们需 要取图 8-14 中的 关系， 并进 行下列 操作。 

(1)  选 择那些 “ 教室” 组分为 “Turing  And.” 的 元组； 

(2)  将这些 元组映 射到日 子和 时刻属 性上。 

按上 述次序 执行这 一系列 联接、 选 择和投 影的表 达式为 


(Ci?X  CDH)) 


我们可 以将这 一表达 式表示 成如图 8-15 所示的 树。 在表示 联接的 节点处 计算岀 的关系 就是图 
8-14 所示的 关系。 而选 择节点 处的关 系是图 8-14 中的前 3 个 元组， 因为 它们的 “ 教室” 组 分中都 
有 Turing  Aud.。 该表达 式树根 节点对 应的关 系如图 8-16 所示， 也 就是这 3 个元组 的日子 和时刻 
组分。 


日子时  刻 


9AM 

9AM 


图 8-16 图 8-15 中 表达式 的结果 
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SQL, 基于关 系代数 的语言 

很多现 代数据 库系统 都使用 一 种名为 SQL  (  Structured  Query  Language , 结构 化查询 语言） 
的语 言表示 查询。 尽 管对该 语言的 详细介 绍超出 了本书 范围， 不过 我们在 这里可 以用几 个例子 
来给 读者一 点关于 SQL 的 印象。 

SELECT  Student Id 
FROM  CSG 

WHERE  Course  =  "CSlOl” 

就是用 SQL 的 方式表 示示例 8. 13 的 查询， 也就是 

7T 学号 教室 =“CS101”  (CSG)) 

其中 FROM 子 句表示 该查询 的对象 关系， 而 WHERE 子句 给出了 选择的 条件， SELECT 子句 则给出 
了 答案投 影到的 那些 属性。 很不幸 的是， SQL 中的 关键词 SELECT 并非 对 应关系 代 数中的 选择 
运 算符， 而 是对应 投影运 算符。 

举个 更复杂 的例子 ，可 以 将示例 8. 15 中 查询 71  曰子， 时刻  教室 CD 付 )) 表 示为如 
下 SQL 程序。 

SELECT  Day,  Hour 
FROM  CR，  CDH 

WHERE  CR. Course  =  CDH. Course  AND  Room  =  n Turing  Aud . n 

这里的 FROM 子句告 诉我们 要联接 Ci? 和 CD// 这两个 关系。 WHERE 子句的 第一部 分是联 接的条 
件， 它表示 的课 程属性 必须和 CD// 的课 程属性 相等； WHERE 子 句的第 二 部分则 是选 择的条 
件； 而 SELECT 子句则 告 诉我们 映 射中的 那些 属性。 


8.7.8  习题 

(1)  用 关系代 数表示 8.4 节习题 (2) 中 (a)(b)(c) 小题的 查询， 假 设我们 想要的 答案是 完整的 元组。 

(2)  重 复习题 (1) 的 练习， 假设想 要的只 有那些 规范中 带*的 组分。 

(3)  用 关系代 数表示 8.6 节习题 (2) 中⑻ (b)(c) 小题的 查询。 请注意 (c) 小题， 在将关 系与其 自身联 接时必 
须 要重命 名一些 属性。 

(4)  用 关系代 数表示 “C.Brown 星期 一上午 9 点在 哪里” 这一 查询。 8.6 节最 后的讨 论应该 能指示 出回应 
该 查询所 必需的 联接。 

(5)  画 岀习题 (2) 中 (a) 至 (c) 的 情况、 习题 (3) 中 (a) 至 (c) 的 情况以 及习题 (4) 中 的查询 所对应 的表达 式树。 

8.8 关系代 数运算 的实现 

为关 系代数 运算使 用得当 的数据 结构和 算法可 以加快 数据库 查询的 速度。 在本 节中， 我们 
将考虑 一些相 对简单 常见的 关系代 数运算 的实现 策略。 

8.8.1 并交差 的实现 

这 3 种 基本集 合运算 的实现 方式与 在关系 和集合 中的实 现方式 相同。 可 以按照 7.4 节 讨论过 
的， 通过为 两个集 合排序 与合并 取两个 集合或 关系的 并集。 而交集 和差集 则可利 用相似 的技巧 
求得。 如果参 加运算 的两个 关系各 含《个 元组， 就要花 0(>log«) 的时间 为其排 序并用 00) 的时 
间 合并， 或 者说总 共需要 OOlogn) 的 时间。 
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不过， 为关系 i? 和 ^ 求并 集的方 式还有 很多， 而且 有些方 式还更 高效。 首先， 我们可 能不去 
考虑 为同时 岀现在 和 S 中的 元组 消除重 复副本 的事。 就是生 成尺的 副本， 比如 说， 放进链 表中， 
然后将 ^ 的 所有元 组也添 加进该 链表， 而不 去检查 ^ 中 的元组 是否也 出现在 中。 这一操 作可以 
在与财 的大小 之和成 比例的 时间内 完成。 而 这样做 的缺点 在于， 严格 地讲， 得 到的结 果并不 
是 和劝勺 并集， 因为 其中可 能存在 重复的 元组。 不过， 也许 这些重 复的存 在并无 大碍， 因为可 
预期它 们很少 岀现。 或者， 我们可 能发现 在后续 的阶段 中消除 这些重 复会更 方便， 比如 在取更 
多关系 的并集 后进行 排序， 然后 再消除 重复。 

另一 种选择 是使用 索引。 例如， 假设 R 具有 属性 A 上的 索引， 而该 属性是 S 的键。 那么 
如果要 取二者 的并集 RUS， 首先从 ^ 的元组 开始， 并依 次检查 i? 的 每个元 组?。 我们会 在组分 J 
中 找到? 的值 —— 比 方说是 a， 并使 用该索 引查找 ^ 中 J 组分的 值也为 a 的元 组。 如果 ^ 中的 这一元 
组与? 相同， 就不 要再将 潘二次 放入并 集中， 而如果 ^ 中不 存在键 的值为 a 的元 组， 或者 键值为 a 
的 元组与 Z 不同， 就要将 ?加 入并 集中。 

如 果索引 提供了 在给定 元组键 值的情 况下每 个元组 平均为 <^1) 的元 组查询 时间， 那 么这种 
方法求 并集的 平均时 间就与 i? 和 ^ 的大小 之和成 比例。 此外， 只要 i? 和 ^ 都没有 重复， 那么 得到的 
关 系也是 没有重 复的。 

8.8.2 投影 的实现 

原则 上讲， 在执行 投影运 算时， 只 能检验 完每个 元组， 并略去 那些与 未岀现 在投影 列表中 
的属性 对应的 组分。 索引是 一点忙 都帮不 上的。 此外， 在计算 了各元 组的投 影后， 我们 可能发 
现会留 下很多 重复。 

例如， 假设有 模式为 0， 5,  的关系 尺， 而且 要计算 &/尺）。 尽管 尺 中 的元组 不可齡 4、 
B、 C 属 性全都 相同， 但 还是可 能有很 多元组 的属性 J 和 5 会 相同而 只是对 应属性 C 的 值不同 。这 
样 一来， 这 些元组 在投影 中全都 会得到 相同的 元组。 

因此， 在为 某关系 i? 和一 列属性 Z 计算了  5  =  这 样的投 影后， 必 须消除 重复。 例如， 

可以为 排序， 然后以 排序的 次序检 查所有 元组。 那些 在次序 上与前 一个元 组相同 的元组 都要被 
删除。 另一 种消除 重复的 方式是 将关系 5 看 作普通 集合。 每 当我们 通过把 的 元组投 影到表 Z 中 
的属 性上生 成一个 元组， 就 将其插 人该集 合中。 就像 所有向 集合插 入元素 的操作 那样， 如果待 
插入的 元素已 经在集 合中， 就不用 做任何 事情。 散列 表这样 的结构 就很适 合表示 由投影 生成的 
元组 构成的 集合又 

如 果关系 i? 中有 《个 元组， 那么 要在消 除重复 前为关 系翊險 所需的 时间为 C^bg/7)。 而如 
果改为 在生成 ^ 的元 组时 对其执 行散列 操作， 而且使 用数量 与《 成比例 的散列 表元， 那么 整个投 
影 运算平 均要花 0(«) 的时 间。 因此， 散列 通常要 略优于 排序。 

8.8.3 选择 的实现 

在执行 选择运 算 S  =  ac(R) 而 且没有 i? 上的索 引时， 就只 能检查 i? 中的 所有元 组以应 用条件 
Co 不管如 何执行 选择， 只要 i? 中没有 重复， 得到的 S 中就 不会有 重复。 

不过， 如果 尺 上存 在若干 索引， 就 可以利 用其中 某一索 引直接 找到满 足条件 C 的 元组， 因此 
就 可以避 免查看 大多数 或是所 有不满 足条件 C 的 元组。 条件 C 形如 A  =  b 时的 情况最 简单， 其中 J 
是尺 的某一 属性， 而 6 是某 常量。 如果 尺具有 J 上的 索引， 就可 以通过 在索引 中查找 6 来检 索满足 
该条件 的所有 元组。 
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如 果条件 C 是若 干条件 的逻辑 AND, 那 么可以 利用其 中某一 条件查 找使用 了索引 的元组 ，然 
后检查 检索到 的这些 元组， 看 看有哪 些满足 其余的 条件。 例如， 假 设条件 C 是 

(A  =  a)  AND  (B  =  b) 

如果这 J 上的索 引或是 5 上的索 引中有 某一个 或全都 存在， 就可以 选择使 用某一 个索引 。假 
设有 S 上的 索引， 而 且要么 J 上没有 索引， 要么 是我们 主动选 择使用 5 上的 索引。 这 样一来 ，我 
们 就会得 到关系 i? 中 5 组分 的值为 6 的所有 元组。 这些 元组中 J 组分为 a 的 都属于 选择运 算的结 
果 一 关系又 而检 索到的 其他元 组则不 属于& 这 一选择 运算所 花的时 间是与 5 组 分的值 为沾勺 
元 组数量 （通 常在 尺 中的元 组数和 中的 元组数 之间） 成比 例的。 

8.8.4 联接 的实现 

假 设我们 想要对 模式为 M， 5} 的关 系财口 模式为 {5,  的关系 51  进 行自然 联接。 还假 设该联 
接 是两个 关系的 S 属性 之间 存在相 等关系 的自然 联接。 ® 如何 执行这 一联接 取决于 我们能 找到属 
性 5 上 的何种 索引。 该问题 类似于 我们在 8.6 节中讨 论过的 那些， 当 时我们 是考虑 如何在 关系间 
导航， 而导 航的本 质就是 联接。 

有 一种直 观而缓 慢的联 接计算 方式， 叫作嵌 套循环 联接。 我们 会按照 如下方 式对一 个关系 
中 的 每个元 组与另 一 关系中 的 每个元 组加以 比较。 

fori? 中的 各元组 r  do 

for  S 中的 各元组 >sdo 

if  r 和 s 的 S 属性 相同 then 
打印 结合了  r 和 s 的 
属性水 5、 C 的 元组； 

然而， 还 有很多 更高效 的联接 方式。 索引 联接就 是其中 之一。 假设 5 有属性 5 上 的索引 。那 
么可 以访问 i? 的 各元组 ?， 并 找到其 5 组分， 比方说 是心 在 S 的索 引中 查找乂 这样就 能得到 5 的 
值 能与? 匹配 的所有 元组。 

同样， 如果尺 有属性 5 上索弓 |， 就 可以浏 览劝勺 所有 元组。 对5 中的各 元组， 我 们会使 用如勺 5 
索引 查找与 之对应 的尺的 元组。 如果财 狀都 有属性 5 上 的索弓 |， 就要任 选其一 来用。 正如 我们即 
将看 到的， 这会 给联接 运算所 花的时 间带来 变化。 

如果没 有属性 5 上的 索引， 利用排 序联接 还是能 比嵌套 循环联 接做得 更好。 首 先要将 i? 和 S 
中 的元组 合并在 一起， 不过要 重新组 织这些 元组， 使得 5 组分 成为所 有元组 的第一 个组分 ，而 
且要为 它们加 上一个 额外的 组分， 如果该 元组来 自关系 尺， 就加上 i?， 而如 果该元 组来自 关系& 
就 加上叉 也就 是说， 来 自关系 尺 的元组 (fl， 句就 成了 (办， fl， 幻， 而来自 关系劝 勺元组 (办， c) 则成 
了 (办， c,  5% 

我们根 据第一 个组分 （也 就是 6) 来为合 并后的 元组表 排序。 虽 然因为 5 值相 同而联 接的两 
个关系 中元组 可能混 合在一 起了， 但是这 些元组 现在已 经是按 着次序 连续排 列了。 ® 我们 会沿着 
已 排序表 向下， 依次访 问具有 各给定 5 值的 元组。 当到达 5 值为 6 的元 组时， 就 可以将 i? 中 所有这 


① 这里 展示的 两个关 系分别 只有一 个属性 （分 别为 J 和 C) 没 有涉及 联接， 不过 这里提 到的想 法显然 可以推 广到具 
有很多 属性的 关系。 

②  我们可 以在排 序的同 时考虑 对最后 一个元 组 （ 也 就是关 系名） 加以 安排， 使得来 自关系 尺 的具 有给定 5值 的元组 
一定 会位于 来自^ •着相 同5 值 的元组 之前。 这样 一来， 对那些 5 值相同 的元组 而言， 来自 的会先 出现， 然后是 
来自 S 的那 些。 
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样的 元组与 ^ 中这样 的元组 配对。 因为这 些元组 都有着 相同的 5 值， 所以它 们都要 联接， 而且生 
成联接 后关系 中元组 所花的 时间是 与生成 的元组 数成比 例的， 除 非是岀 现尺中 没有元 组或* S 中没 
有 元组的 情况。 即 便是在 R 中没有 元组或 S 中没 有元 组的情 况下， 所 花时间 仍然与 5 值为 6 的元组 
的 数量成 比例， 为的 是检查 这些元 组并在 已排序 表中跳 过这些 元组。 

♦ 示例 8.16 

假设要 联接图 8-2C 所示的 CDi/ 关 系与图 8-2d 所示的 C7? 关系。 在 这里， 课程属 性就扮 演着属 
性 5 的角色 ，日 子 和时刻 属性则 一起扮 演属性 J 的 角色， 而教室 属性就 是属性 C。 CD// 的 6 个元 
组和 C7? 的 3 个 元组首 先会各 自加上 其关系 名称。 这里不 需要重 新排列 组分， 因为 两个关 系中课 
程属性 都是排 在第一 位的。 当我们 对元组 加以比 较时， 首 先要比 较课程 组分， 利 用词典 次序确 
定 哪个课 程名称 的次序 靠前。 如 果不分 先后， 也就 是说， 如果课 程名称 相同， 就 要比较 最后一 
个 组分， 其中 a)// 要先于 C7?。 如果还 是不分 先后， 就可 以让其 中任意 一个元 组先于 另一个 
元组。 

已排好 序的元 组如图 8-17 所示。 请 注意， 该 表并非 关系， 因为它 所含元 组的长 度不尽 相同。 
不过， 它 将对应 CS101 的元组 和对应 EE200 的元组 组织在 一起， 这样 一来就 可以很 容易地 联接这 
些 元组分 组了。 


CS101 

M 

CS101 

W 

CS101 

F 

CS101 

Turing  And. 

EE200 

Tu 

EE200 

W 

EE200 

F 

EE200 

25  Ohm  Hall 

PH  100 

Newton  Lab. 

9AM 

CDH 

9AM 

CDH 

9AM 

CDH 

CA 

10  AM 

CDH 

1PM 

CDH 

10  AM 

CDH 

图 8-17  CD// 和 a? 中所有 元组构 成的已 排序表 

8.8.5 联 接方法 的比较 

假设 要联接 模式为 M， 叫的关 系财口 模式为 {5,  的 关系& 并设财 狀分 别有 r 个元 组和 ^ 
个 元组。 还有， 设联接 中的元 组数为 m。 要 记住， 如果 的 每个元 组都与 ^ 中的每 个元组 （因为 
它 们都有 相同的 5 值） 联接， 那么 m 可以有 a 那 么大， 而如果 i? 中没有 元组的 S 值与 S 中元 组的 5 
值 相等， 那么 m 还可 以小到 0 这 么小。 最后， 假 设可以 在平均 0(1) 的 时间内 查找任 意索引 中的任 
意值， 就 像索引 是有着 相当大 量的散 列表元 的散列 表时能 做到的 那样。 

每种联 接方法 生产输 出都至 少要花 0(m) 的 时间。 不过， 有些方 法所花 的时间 要更多 一些。 
如果 使用嵌 套循环 联接， 就要花 ^ 的时 间执行 比较。 因为 所以可 以忽略 生成输 岀所花 
的 时间， 并说 配对所 有元组 的时间 开销为 0(吻 。 

另一 方面， 我们可 以为这 些关系 排序。 如果使 用类似 归并排 序的算 法为含 r  +  s 个元 组的表 
排序， 所 需的时 间就是 

(9((r +  5)log(r +  5)) 

要 从已排 序表中 毗连的 元组构 建输出 元组， 就要花 0(r  + 4 的时 间检查 该表， 还要花 
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的时 间生成 输出。 排 序所需 的时间 主导了  0(r  +  Q 项， 不过生 成输出 所花的 既可能 大于也 
可 能小于 排序的 时间。 因此 通过排 序进行 联接的 算法的 运行时 间必须 包含这 两项， 这一 运行时 
间就是 

0[m  +  (r  +  s)  log(r +  5)) 

因为 m 从不 会大于 rs， 而且 (r  + 41(^0  + 4 只有 在一些 少见的 情况下 才大于 rs  ( 比如， r^s 
为 0 时）， 所以可 以说排 序联接 一般而 言要比 嵌套循 环联接 更快。 

现 在假设 有关系 S 中属性 5 上 的索弓 |。 要花 0(r) 的时 间查看 i? 的 各元组 并在索 引中查 找这些 
元组的 5 组分 的值。 这 时我们 必须加 上检索 对应各 5 值 的匹配 元组以 及生成 输岀元 组的时 间开销 
0{m)o 因为 m 既可 以大于 r 也可 以小于 r， 所 以表示 该索引 联接时 间开销 的表达 式就是 0(m  +  r) 。 
同样， 如果 有关系 i? 中属性 5 上的 索引， 就 可以在 0(m  + 4 的时间 内执行 该索引 联接。 因 为除了 
某些罕 见的情 形 （ 比如 r  +  sSl  ) 之外， r 和痛 小于 (r  +  s)l0g(r  +  4, 所以 索引联 接的运 行时间 
要小 于排序 联接的 时间。 当然， 如果 想要进 行索引 联接， 就 需要联 接中所 涉及的 某一属 性上的 
索引， 而 排序联 接则可 以对任 意关系 进行。 

8.8.6  习题 

(1)  假设图 8-2a 所示的 “学 号-姓 名-地 址- 电话” 关系 ISNAP) 具有学 号属性 （键） 上的 主索引 ，而 
且 有电话 属性上 的辅助 索引。 如 果条件 C 分别 为以下 3 种， 那么 我们该 如何最 高效地 为查询 
ctc(SNAP) 计算 回应？ 

(a)  学号 = 12345  AND  地址/  “45  Kumquat  Blvd” 

(b)  姓名 = “C.Brown”  AND  电话 =  555-1357 

(c)  姓名 = “C.Brown”  OR  电话 =  555-1357 

(2)  说明如 何通过 为示例 8.16 中 合并的 元组表 排序， 来为图 8-1 中的 关 系与图 8-2a 中的 5AMP 关系进 
行排序 联接。 假设 是想进 行自然 联接， 或者说 是想要 “ 学号” 组分上 的相等 关系。 给岀排 序的结 
果， 就像图 8-17 那样， 并给 岀联接 运算得 到的关 系中的 元组。 

(3)  * 假 设要联 接关系 i? 和& 它 们各含 n 各元 组， 而且结 果中有 0(n3/2) 个 元组。 分别写 岀利用 以下各 
项技术 进行联 接时大 0 运 行时间 的 公式， 将其 表示为 《 的 函数。 

(a)  嵌 套循环 联接。 

(b)  排序 联接。 

(c)  索引 联接， 使用 i? 的 联接属 性上的 索引。 

(d)  索引 联接， 使用 S 的联 接属 性上的 索引。 

(4)  * 我们 提出过 利用作 为某关 系的键 的属性 J 上的 索引 为两个 关系取 并集。 如果具 有索引 的属性 J 不 
是键， 这是 否仍为 合理的 取并集 方式？ 

(5) =*= 假设想 使用 尺 和* s 二者之 一的某 属性足 h 的索引 计算⑻ i? ns;  (b)i?-*s。 能 否取得 与两个 关系大 
小之 和接近 的运行 时间？ 

(6)  如果要 将关系 i? 投影 到含有 i? 的键的 属性集 合上， 是否需 要消除 重复？ 为 什么？ 

8.9 关 系的代 数法则 

就像其 他代数 那样， 通过 对表达 式进行 变形， 通常能 “ 优化” 表 达式。 也就 是说， 我们可 
以 接受一 个求值 开销很 大的表 达式， 并 将其转 换成求 值开销 较小的 等价表 达式。 对算术 或逻辑 
表 达式的 变形有 时能节 省一些 运算， 而对 关系代 数表达 式进行 合适的 变形， 可以 节省几 个数量 


8.9 关 系的代 数法则  355 


级 的求值 时间。 因为 优化过 的和未 优化的 关系代 数表达 式在运 行时间 上有着 巨大的 差异， 所以 
如果 程序员 要用非 常高级 的语言 （ 比如 我们在 8.7 节中 提过的 SQL 语言） 编程， 优 化这种 表达式 
的 能力就 是很关 键的。 

8.9.1 涉及 并交差 的法则 

7.3 节涵 盖了用 于集合 并交差 运算的 主要代 数法贝 IJ。 这些法 则也能 应用到 集合的 特例， 关系 
上， 不 过读者 应该记 住关系 模型的 要求， 就是 运算所 涉及关 系的模 式必须 相同。 

8.9.2 涉 及联接 的法则 

从某 种意义 上讲， 联接 运算符 是可交 换的， 而 从另一 种意义 上讲， 它又 不是可 交换的 。假 
设要 计算自 然联接 尺>4, 其中 i? 具 有属性 ^ 和 5, 而 5 具 有属性 5 和 C。 那么 的 模式中 的各列 
按 次序排 列就是 J、 5、 C。 如 果是求 义<尺， 可 以得到 本质上 相同的 元组， 不过 各列的 次序是 5、 
C、 3。 因此， 如果我 们坚信 各列的 次序并 非无关 紧要， 那么 联接就 不具交 换性。 不过， 如果我 
们 认可连 带列名 一起整 列交换 的关系 其实是 相同的 关系， 就 可以认 为联接 是可交 换的， 在这里 
我 们要采 纳这一 观点。 

联接运 算符并 不总是 符合结 合律。 例如， 假设有 模式分 别为队 5}、 队 和队 D}m 
个关系 i?、 S^To 假设 要取自 然联接 其中 首先要 让尺和 ^ 的 5 组分 相等， 接着 让结果 
的 J 组分 与关系 如组分 相等。 如果是 从右边 关联， 就得到 尺><0><7)。 关系讶 P7 的模式 分别为 
{B,  和 0， 乃}。 没有办 法选择 令其相 等以达 到自然 联接效 果的属 性对。 

不过， 在某些 条件下 结合律 对联接 运算来 说是成 立的。 我们将 如下公 式的证 明留给 读者作 
为练习 

((Ra：bS)c=DT)^(Ra：b(S-dT)) 

只要 ^ 是 的 属性， 5 和 c 是 s 的两 个不同 属性， 而 乃 是 r 的属性 就行。 

8.9.3 涉 及选择 的法则 

关系代 数最实 用的法 则涉及 选择运 算符。 如果选 择的条 件就像 实践中 常见的 那样是 要求指 
定 的组分 有特定 的值， 则 选择运 算的结 果关系 中的元 组数要 比原关 系的元 组数少 很多。 因为一 
般而言 当运算 应用到 较小的 关系上 时所花 的时间 较少， 所以 尽可能 早地应 用选择 运算是 极为有 
利的。 就 代数学 而言， 如果想 早点应 用选择 运算， 就 要动用 代数法 则让选 择运算 符沿着 表达式 
树向下 传递， 达 到其他 运算符 下方。 

这种 法则的 一个例 子就是 

只 要条件 c 中提 到的 属性都 是关系 尺 的属 性， 它就 成立。 同样， 如 果条件 c 提及的 所有属 性都是 s 
的 属性， 就可 以 使用如 下法则 将选择 运算符 下压到 s 

这两条 法则都 称为选 择的下 压 （ selection  pushing  )。 

当选择 中的条 件很复 杂时， 可能 要用一 种方式 下压一 部分， 而用 另一种 方式下 压另一 部分。 
为 了将选 择分割 为两个 或多个 部分， 就需 要法则 
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请 注意， 如果 这些分 割出的 部分用 AND 相连， 就只能 将条件 分为两 个部分 —— 这里是 C 和 仏 直 
觉 上讲， 当 我们为 (：和乃 这两个 条件的 AND 进行选 择时， 要 么是检 查关系 i? 中 的所有 元组， 看看 
这 些元组 是否同 时满足 (^和乃， 要么 是检查 的所有 选择， 选出那 些满足 条件乃 的， 然后 再检查 
满足条 件乃的 元组， 看看 其中有 哪些满 足条件 C。 我 们将该 法则称 为选择 的分割 ( selection 
splitting  )。 

另 一种必 要的法 则是选 择的交 换律。 如果 要对某 关系应 用两次 选择， 那么应 用这些 选择的 
次序是 无关紧 要的， 选岀的 元组都 会是相 同的。 我们可 以正式 地将其 写为， 对任 何条件 C 和 
D, 有 

crc((JD(R))  =  (JD((Jc(R)) 

♦ 示例 8.17 

我们再 来看看 8.6 节中 考虑过 的复杂 查询： “C.Brown 星期 一上午 9 点在哪 里？” 这一 查询涉 
及 4 个关 系上的 导航： 

(1)  CSG  (课 程-学 号-成 绩)； 

(2)  SNAP  ( 学 号-姓 名-地 址-电 话）； 

(3)  CDH  ( 课 程-日 子-时 刻）； 

(4) CR  (课 程-教 室)。 

为 了得出 表示该 查询的 代数表 达式， 首先可 以求这 4 个关系 的自然 联接。 也就 是通过 让学号 
组分相 等连接 CSG 和 SVJP。 可以把 该运算 视为对 “ 课程- 学号- 成绩” 元 组进行 扩展， 为 该元组 
加上 所提及 学生的 姓名、 地址 和电话 号码。 当然， 我 们不会 希望用 这种方 式存储 数据， 因为这 
会迫使 我们为 某学生 选修的 每门课 程将该 学生的 这些信 息重复 一遍。 不过， 我们 并不是 要存储 
这些 数据， 而 只是要 设计表 达式计 算它。 

通过 让课 程组分 相等， 我 们要将 CSGxSV^P 的 结果与 CD// 联接。 这 次联接 会取各 CSG 元组 
(已经 扩展了 学生信 息）， 为每 个上课 时段制 作一个 副本， 并 将各元 组扩展 为具有 一对可 能“日 
子 -时刻 ”值。 最 后要将 (CSG><5A^P)><CD/f 的 结果与 C7? 联接， 还 是让课 程组分 相等， 结果就 
是通过 添加带 有某一 上课时 段所在 教室的 组分扩 展了各 元组。 得到的 关系模 式为： 

{ 课程， 学号， 成绩， 姓名， 地址， 电话， 日子， 时刻， 教室 } 

而元组 (c， 51， g， 《， a,  /?， i/， /z， r) 的含义 就是： 

(1)  学生 s 选修 了课程 c 并拿 到了 g 的 成绩； 

(2)  学号为 s 的学生 的姓名 是《， 他 （她） 的地址 是《而 且电话 号码为 户； 

(3)  课程 c 是在 教室 r 上课， 而 且该课 程某一 次上课 时间是 d 日 的 仙寸。 

对 该元组 集合， 必须应 用将考 量限制 到相关 元组的 选择， 也就 是姓名 组分为 “C.Brown”， 
日子 组分为 “M”， 而且 “ 时刻” 组分为  “9AM” 的 元组。 假设 C.Brown 最 多选修 了一门 在星期 
一上午 9 点 上课的 课程， 这 样的元 组就最 多只有 一个。 因为 我们想 要的回 应是该 元组的 “ 教室” 
组分， 所以 要通过 投影到 “ 教室” 属 性上来 完成表 达式。 表 示这一 查询的 表达式 树如图 8-18 所 
示。 它由 4 路联接 组成， 接着是 选择， 然后是 投影。 

如果 按照图 8-18 这 样的写 法为该 表达式 求值， 就 要通过 联接 CSG、 SNAP、 CDi/ 和 a? 构建一 
个 巨大的 关系， 然后将 其限制 到一个 元组， 再将 该元组 投影到 一个组 分上。 请 记住， 由 8.6 节我 
们可知 并不一 定要构 建如此 庞大的 关系， 而 是可以 “将选 择沿着 树向下 压”， 从而 限制联 接运算 


中 涉及的 关系， 因 此就大 大限制 了我们 要构建 的关系 的大小 
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兀 教室 


^ 姓名 = “C.Brown”  AND  日 子= “M”  AND  时刻 =  “9AM” 


CSG  SNAP 

图 8-18 确定 C.Brown 星期 一上午 在哪里 的初始 表达式 

第一 步如图 8-19a 所示。 请 注意， 选择 只涉及 姓名、 日子 和时刻 属性。 它们中 没有一 个来自 
图 8-18 顶 层联接 的右操 作数， 而 都来自 左侧， 也就是 CSG、 和 CD// 的 联接。 因此可 以将选 
择 压到顶 层联接 之下， 并 只将其 应用到 该运算 的左操 作数， 一如我 们在图 8-19a 中 所见。 

现 在就没 法继续 下压选 择运算 符了， 因为所 涉及的 姓名属 性来自 图 8-19a 中层联 接的 左操作 
数， 而其 他两个 属性， 日子和 时刻， 则来自 其右操 作数， CDH 失系。 因此 必须分 割选择 中的条 
件， 它是 3 项 条件的 AND， 可以 分割成 3 个 选择， 不过 在本例 中只要 把姓名 = C.Brown 这一 条件与 
其他两 个分开 即可， 分 割的结 果如图 8-19b 所示。 

现在， 涉 及日子 和时刻 的选择 可以下 压到中 层联接 的右操 作数， 因 为右操 作数是 同时具 
有日子 和时刻 属性的 CD// 关系。 然后 另一个 涉及姓 名的选 择就可 以下压 到中层 联接的 左操作 
数， 因 为该操 作数是 GSG><SVAP， 含 有姓名 属性。 这 两项改 变会带 来如图 8-19c 所示 的表达 
式树。 

最后， 姓名 上的选 择涉及 尸的 属性， 因此 可以将 该选择 下压到 底层联 接的右 操作数 。这 
一改 变如图 8-19d 所示。 

现 在该表 达式给 我们的 计划与 8.6 节中为 该查询 设计的 计划几 乎是相 同的。 首 先从图 8-19d 
总 的表达 式底层 开始， 找 到名为 C.Brown 的 学生的 学号。 把姓名 = C.Brown 的 尸 元组与 CSG 
关系 联接， 得到 C.Brown 选修的 课程。 当我们 把第二 次选择 应用到 CD// 关 系时， 就得到 星期一 
上午 9 点 上课的 课程。 因此图 8-19d 所示 的中层 联接给 了我们 C.Brown 选修 了而且 在星期 一上午 9 
点 上课的 课程。 而 顶层联 接则得 到这一 时间这 门课程 上课的 教室， 而这里 的投影 就给出 了这些 
教 室作为 回应。 

这一 计划与 8.6 节 中的计 划主要 的差别 在于， 后者 是先将 元组中 无用的 组分投 射走， 而这 
里的计 划则是 要带着 这些组 分直到 最后。 因此 要完成 对关系 代数表 达式的 优化， 就需 要可以 
将 投影沿 着树向 下压的 法则。 正如我 们将在 8.9.4 节中看 到的， 这 些法则 与用于 选择的 法则不 
尽 相同。 
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1X1 


CR 


姓名 = “C.Brown”  AND 日子 = “M”  AND 时刻 = 


1X1 


1X1 


CDH 


CSG 


SNAP 


(a) 把选 择压到 顶层联 接之下 


CR 


乂  姓名 = *C.Brown" 


CTP 


IXI 


“M" 励时刻 = "9AM” 


CDH 


CSG 


SNAP 


(c) 把两个 选择压 向不同 的方向 


[X] 


CR 


% 


子= *M"  SHD 时刻 = "9AM" 


CDH 


CSG 


SNAP 


(b) 分 割选择 


tx] 


ex] 


[XI 


CR 


AND  时刻 =  “9AM” 


CSG  〜一”  CDH 


SNAP 


(d) 把 “ 姓名” 属性 上的选 择压到 底层联 接之下 


图 8-19 将 选择运 算下压 


8.9.4 涉 及投影 的法则 

首先， 与选 择可以 被压到 并集、 交 集或差 集之下 （只要 我们将 选择同 时压向 两个操 作数） 
不同 的是， 投影 只能压 到并集 之下。 也 就是， 法则 

(〜 (i?UQ) 三 (〜⑻ ⑹） 
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成立。 不过， ns) 不 一定等 同于。 例如， 假 设财狀 都是 模式为 队 5} 的 关系， 尺只 包含元 
iS.(a,  b), 而 s 只包 含元组 (a， c)。 那么 ；^(i?)n^os) 只含 （单 组分） 元组 ⑷， 而〜 (i?ns) 则不 
含元组 （ 因为 为 空）。 因此就 有了的 情况。 

(〜 (卿 )) 咖⑻ n 〜⑻） 

兀 L ⑻  n7h(S) 

将投影 压到联 接以下 是有可 能的。 一般 而言， 我 们需要 为联接 运算的 每个操 作数都 加上投 
影运 算符。 如果有 表达式 那么 所需的 的属性 是那些 岀现在 属性表 Z 中的 属性 ，以 
及 联接运 算所依 据的来 自关系 尺 的属性 同样， 我 们需要 ^中 那些在 属性表 Z 上的 属性， 以及联 
接依据 的属性 5, 不管 5 是否在 Z 中。 正式 地讲， 将 投影压 到联接 之下的 法则是 

(尺以)) 三 (〜 (M 尺 ⑹ )） 

其中 

(1)  表 M 是由 Z 中 那些在 模式中 的属性 构成， 如 果属性 J 不在 Z 中， 就还要 加上3; 

(2)  表 A/ 是由 Z 中那 些在 5 模式中 的属性 构成， 如 果属性 5 不在 Z 中， 就还 要加上 5。 

要注 意到， 应用 这一投 影下压 法则的 实用方 式是从 左向右 应用， 即便 我们因 此引人 了两项 
额 外的投 影而且 没有减 少任何 运算。 原因 在于， 尽早地 投影岀 那些可 以投影 的属性 （也 就是将 
投影 尽可能 压到表 达式树 靠下的 位置） 通 常是有 利的。 如果联 接属性 J 不在表 Z 中， 我们 在联接 
运算后 可能仍 然要执 行到表 Z 上 的投影 运算。 回想一 下另一 个联接 属性， 来自 ^ 的 5 属性， 无论 
如何都 不会出 现在联 接中。 

有 时候， 表 M 和 （或） 表 7V 分别 使用 i? 或* S 的所有 属性组 成的。 如果 这样， 就 没理由 执行这 
一的投 影了， 因 为它是 没有效 果的， 除 非关系 的各列 可能是 种毫无 头绪的 排列。 因此我 们要使 
用如下 法则。 

表 明了表  1 是由 i? 的模式 中的所 有属性 组成的 ^ 请 注意这 一法则 是认可 “整列 交换不 会改变 
关 系”这 一 '观 点的。 

还有一 种我们 不想进 行投影 的情况 ^ 假 设子表 达式〜 (幻 是某更 大表达 式的一 部分， 并 设尺是 
单一 关系而 不是涉 及运算 符的表 达式。 还 假设在 表达式 树中该 子表达 式之上 的位置 还有另 一个投 
影。 现在， 要执 行尺上 的投影 就要求 我们检 查整个 关系， 而不管 有没有 索引的 存在。 如果我 们带着 
i? 中 未在表 L 上的属 性继续 向下， 直到 下一次 有机会 将这些 属性投 影掉， 就经常 能节省 大量 时间。 
例如， 在接 下来的 示例中 我们将 讨论子 表达式 

兀 课程, 学号、 CSG) 

它 的作用 是去掉 成绩。 因 为整个 （表 示示例 8.17 中的查 询的） 表达式 最终要 将焦点 集中在 CSG 
关系的 少量元 组上， 所 以最好 是迟一 些再将 成绩投 影走， 这样 做就避 免了检 查整个 CSG 关系。 

♦ 示例 8.18 

我 们将图 8-19d 变成下 压投影 运算。 根节 点处的 投影会 首先被 压到顶 层联接 之下。 投影 表只有 
“ 教室” 组成， 而联 接运算 两侧的 联接属 性都是 “课 程”。 因此， 在左边 我们只 投影到 “课程 ”上， 
因为 “ 教室” 不是左 侧表达 式中的 属性。 而该 联接的 右操作 数则要 投影到 “课 程”和 “教 室”属 
性上。 因为这 两个属 性都是 操作数 C7? 中的， 所以 可以略 去这一 投影。 得到 的表达 式如图 8-20a 所示。 

现在， 可 以将到 “ 课程” 属性上 的投影 压到中 层联接 之下。 因为 “ 课程” 还 是联接 运算两 
边 的联接 属性， 所以我 们在中 层联接 下引人 了两个 运算 符。 由 于中层 联接的 结果只 有“课 
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程” 属性， 因此我 们不再 需要该 联接之 上的投 影了， 新 表达式 就如图 8-20b 所示。 请 注意， 涉及 
的两个 关系的 元组都 只有一 个组分 “ 课程” 的这次 联接， 其实是 集合的 交集。 这 是说得 通的， 
它是 C.Brown 所选 的课程 的集合 与星期 一上午 9 点 上课的 课程的 集合的 交集。 


兀 教室 


教室 


丌腿 


IX] 


CR 


DX] 


CSG  ex 姓名： 〜 ”  CDH 


SNAP 


CR 


汀 日子 = “M”  AND 时刻 ，“9AM” 


CDH 


(a) 把投 影压到 顶层联 接之下 


(b) 把投 影压到 中层联 接之下 


[X] 


CR 


CR 


DX] 


(7^ 


子二 “M”  AND 时刻 = 


IX] 


日子 = “M， AND 时刻 = "9AM" 


CDH 


CSG 


CDH 


CSG 


姓名 = "C.Brown" 


姓名 = "CBrown" 


SNAP 

(c) 把投 影压到 下层联 接之下 

图 8-20 将投影 向下压 


SNAP 

(d) 删除把 成绩从 CSG 关系中 投影掉 的步骤 


至此， 我们需 要将％ g 压到底 层联接 之下。 两侧的 联接属 性都是 学号， 因此 左侧的 投影属 
性 表就是 (课 程， 学 号)， 而 右侧的 则就是 学号， 因 为课程 不是右 侧表达 式中的 属性。 得 到的表 
达 式如图 8-20C 所示。 
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最后， 正如 我们在 示例之 前的内 容中提 过的， 不 立即将 CSG 关 系中的 成绩属 性投影 掉是有 
利的 。在该 投影之 上我们 会遇到 运算符 ， 不管 怎样它 都会把 成绩从 中去掉 。如果 使用图 8-20d 
所 示的表 达式， 从本 质上讲 就有了 8.6 节 中为这 一查询 设计的 计划。 也就 是说， 表达式 
n 竿号 {(J^CBm^XSNAP)) 给了 我 们名为 C.Brown 的 学生的 学号， 而后 面跟着 投影; z ■课程 的 第一次 
联接 就给了 我们那 些学生 选修的 课程。 如 果关系 SV/ (尸 关系有 姓名属 性上的 索引， 且 CSG 关系有 
学号属 性上的 索引， 那么 这些运 算就能 很快执 行完。 

子表 达式％ _=, ，胃 , (CD//)) 的 值就是 在星期 一上午 9 点 上课的 课程， 而 中层联 
接会 将这些 结合求 交集， 以给岀 姓名为 C.Brown 的 学生选 修了的 在星期 一上午 9 点 上课的 课程。 
最后， 后 面带着 投影的 顶层联 接会在 CR 关系中 查找这 些课程 （如果 有课程 属性上 的索引 将会是 
很 快的操 作）， 并生成 与之关 联的教 室作为 回应。 

8.9.5 习题 

(1) * 证明： 只要」 是 的属 性， 5 和 C 是 S 不同的 属性， 而且 D 是: T 的 属性， 就有 

=  71)) 

为什么 C 这一 条件很 重要？ 彳^示:1| 记住， 性在联 接执行 时会消 失掉。 

(2) * 证明： 只要 J 是 i? 的 属性， 5 是 ^ 的属 性， C 是 r 的属 性， 就有 

l(R^  S)xt\  =  (rx(SxT)) 

(3)  取 8.7 节习题 (3) 中 的各关 系代数 查询， 并将 选择和 投影运 算下压 到尽可 能远的 位置。 

(4)  我们来 对关系 代数运 算得到 的关系 中元组 的数量 进行如 下全面 简化。 

(i)  每 个操作 数关 系含有 1000 个 元组。 

(ii)  在 联接分 别具有 n 个和 m 个元 组的关 系时， 得到 的关系 中含有 mn  / 100 个 元组。 

(iii)  在执行 条件为 &个 条件 （每 个条件 都会让 一种属 性等于 一个常 数值） 的 AND 的选 择时， 我们将 
关 系的大 小除以 104。 

(/V) 在 执行投 影时， 关系 的大小 不变。 

此外， 让我们 来估计 一下用 为每个 内部节 点计算 岀的关 系大小 之和给 表达式 求值的 开销。 给岀图 
8-18、 图 8-19a 到图 8-10d 和图 8-20a 到图 8-20d 中各表 达式的 开销。 

(5)  * 证明选 择的下 压法则 

(crc(R  [XI  S))  =  (^(Tc(R)  [XI  S) 

提示： 要 证明两 个集合 相等， 通常 最简单 的方式 就是如 7.3 节中 描述的 那样， 证明两 个集合 互为对 
方的 子集。 

(6)  * 证 明以下 法则。 

(a)  (crc(RnS))^{c7c(R)n(jc(S)) 

(b)  {ac(RUS))^{ac(R)Ucrc(S)) 

(c)  {crc(R-S))^{crc(R)-(Tc(S)) 

(7) * 给岀 反例， 证明 下式不 成立。 

(〜 (及-S)) 三 (〜⑻ ⑺） 

(8) ** 有些 时候， 可 以利用 “等价 关系” 

ctc{R  ^  5)  =  (t7c(i?)  ^  crc(,S))  (8-1) 

将选 择同时 沿着联 接的两 个方向 下压。 

(a)  在什么 情形下 (8.1) 式真 正是等 价的？ 

(b)  如果 (8.1) 式是有 效的， 不是 将选择 只压向 i? 或 只压向 又 那么 何时使 用该法 则会更 合适？ 


362  第 8 章 关系数 据模型 


8.10 小结 

大家 在学习 过本章 后应该 记住以 下 要点。 

□ 被称为 “ 关系” 的二维 表是一 种多功 能的信 息存储 方式。 

□关 系中的 行称为 “元 组”， 而 列称为 “属 性”。 

□  “主 索引” 将关 系的元 组表示 为数据 结构， 而 且会分 配这些 元组， 使得 利用某 些属性 (表 
示 索引的 “定 义域” ） 的值 的运算 会因为 这种分 配变得 容易。 

□关 系的 “键” 是能唯 一确定 该关系 其他属 性的值 的属性 构成的 集合。 通常 主索引 会使用 
键作 为其定 义域。 

□  “辅助 索引” 这 种数据 结构可 以简化 指定了 某一特 定属性 （通 常不 是主索 引对应 的定义 
域中的 属性） 的 运算。 

□关 系代数 是一种 高级表 示法， 用来表 示与一 个或多 个关系 有关的 查询。 其 基本运 算包括 
并 、交 、差、 选择、 投影和 联接。 

□ 有很多 实现联 接的方 式要比 直观的 “嵌 套循环 联接” （ 它会将 一个关 系中的 各个元 组与另 
一个关 系中的 各元组 一一 配对） 更 高效。 索引 联接和 排序联 接的运 行时间 接近于 查看所 
涉及 的两个 关系并 生成联 接结果 所需的 时间。 

□ 关系代 数表达 式的优 化可以 大大缩 短表达 式求值 的运行 时间， 因此 如果实 践中用 于表示 
查询 的语言 是基于 关系代 数的， 这 种优化 是很关 键的。 

□ 改 善给定 表达式 运行时 间的方 式有很 多种， 将选 择往下 压通常 是其中 收益最 大的。 

8.11 参 考文献 
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第 9 章 

图数 据模型 


从某 种意义 上讲， 图就 是二元 关系。 不过， 它利 用一系 列由线 （称 为边） 或箭头 （称 为弧） 
连 接的点 （称为 节点） 提供 了强大 的视觉 效果。 在这 方面， 图 就是我 们在第 5 章中 研究过 的树数 
据 模型的 泛化。 和树 一样， 图也 有多种 形式： 有向图 / 无向 图， 以及 标号图 / 无标 号图。 

图还 和树一 样可以 解决大 范围的 问题， 比如 距离的 计算、 关系 中环的 查找， 以及连 通性的 
确定。 我 们在第 2 章中已 经见识 过用图 来表示 程序的 结构。 而第 7 章 也用到 图来表 示二元 关系， 
并用 图展示 了关系 的某些 属性， 比如交 换律。 在第 10 章 中将看 到用图 表示自 动机， 而在第 13 章 
中会 看到用 图表示 电路。 而图除 上述这 些之外 的若干 重要应 用将在 本章中 讨论。 

9.1 本章主 要内容 

本章的 主要内 容包 括以下 这些。 

□ 与 有向图 和无向 图有关 的定义 （9.2 节和 9.10 节)。 

□表 示图的 两种重 要数据 结构： 邻接 表和邻 接矩阵 （9.3 节)。 

□ 用来在 无向图 中找岀 连通分 支的算 法和数 据结构 （9.4 节)。 

□ 找出最 小生成 树的技 巧 （  9.5 节)。 

□名为 “深 度优先 搜索” 的用 于探索 图的实 用技巧 （9.6 节)。 

□应 用深度 优先搜 索测试 有向图 是否有 环路， 找出 无环图 的拓扑 次序， 以及 确定是 否存在 
从一个 节点到 另一节 点的路 径 （  9.7 节)。 

□用 来找岀 最短路 径的迪 杰斯特 拉算法 （9.8 节)。 该算法 可找岀 从某个 “源” 节点 到每个 
节点 的最小 距离。 

□ 找岀 任意两 个节点 间最小 距离的 弗洛伊 德算法 （9.9 节)。 

本章中 的很多 算法都 是比解 决问题 的直观 方法更 加高效 的实用 技巧。 

9.2 基 本概念 

有 向图， 是由节 点集合 #以 及 AO： 的二 元关系 J 组成 的。 我们樣 4 称为 有向 图弧的 集合， 因此 
弧 是节点 的有 序对。 

绘岀的 图如图 9-1 所示。 各节 点是用 圆圈表 示的， 节点的 名称就 在圆圈 中央。 我们通 常会用 
从 0 开始 的整数 为节点 命名， 或 者使用 等效的 枚举。 在图 9-1 中， 节点 集合翊 {0,  1， 2,  3,  4}。 
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J 中的弧 (w， v) 都 是由从 w 到 v 的箭 头表 示的。 在图 9-1 中， 弧的 集合是 
j  =  {(0,  0)， （0, 1)， (0,  2)， （1， 3)， （2,  0)， （2, 1)， （2,  4)， （3,  2)， （3,  4)， （4, 1)} 


图 9-1 有向图 的示例 


在文 本中， 一般习 惯将弧 (W， V) 表示为 W4V。 我们将 v 称为 弧的 头部， 而将 《称 为弧的 尾部， 
以适应 v 在箭 头的 头部而 w 在其 尾部的 概念。 例如， 0^1 就是图 9-1 中的一 条弧， 它的头 部是节 
点 1 ， 而尾部 是节点 0。 另一 条弧是 0->1 ， 这样 一条从 某节点 通向其 自身的 弧就叫 作自环 （ loop  )。 
对该弧 而言， 头部和 尾部都 是节点 I 

9.2.1 前导 和后继 

当 w  4  v 是 弧时， 还可 以说 w 是 v 的前导 （ predecessor ), 而且 v 是 w 的后继 （ successor  )。 因此， 
弧 0  4 1 就表示 0 是 1 的 前导而 1 是 0 的 后继， 而弧 0^0 则表示 0 同 时是其 本身的 前导和 后继。 

9.2.2 标号 

就 像对树 那样， 也可以 为图的 各节点 附加标 号 （ label  X 标 号是绘 制在所 对应的 节点附 近的。 
同样， 可以在 靠近弧 中点的 位置为 弧放置 标号。 节点的 标号或 弧的标 号可以 是任意 类型的 。例 
如， 图 9-2 就展 示了节 点名为 1， 标号为 “ 狗”， 节 点名为 2, 标号为 “ 猫”， 而且 有一条 标号为 “咬” 
的弧 1^2  o 


图 9-2 含两个 节点的 标号图 


和树 一样， 不 应该把 节点的 名称与 其标号 弄混。 同一幅 图中各 节点的 名称必 须是唯 一的， 
但可 能有 不止一 个节点 的标号 相同。 
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9.2.3 路径 

有向图 中的路 径是一 列节点 (Vi,  v2, …， vj， 其 中每个 节点都 有到下 一节点 的弧， 也就是 
V;.^V,.+1,  k-\o 该 路径的 长度是 A-1, 也 就是这 条路径 上弧的 数量。 例如， 图 9-1 

中的 (0， 1， 3) 就 是一条 长度为 2 的 路径。 

灸 =1 的情 况也是 可以存 在的。 也就 是说， 任 何节点 v 本身 都是 一条从 v 到 v 的长 度为 0 的 路径。 
该路 径上没 有弧。 

9.2.4 有 环图和 无环图 

有 向图中 的环路 （cycle) 是指 起点和 终点为 同一节 点的长 度不为 0 的 路径。 环路的 长度就 
是这条 路径的 长度。 请 注意， 路径 长度为 0 的情 况不是 环路， 虽然 “其 起点和 终点是 同一节 点”。 
然而， 由 一条弧 V4V 构成 的路径 是一条 长度为 1 的 环路。 

♦ 示例 9.1 

考虑图 9-1 中 的图。 因为 有自环 0^0, 存 在一条 长度为 1 的环路 (0,  0)。 还 有一条 长度为 2 
的环路 (0,2,0)， 因 为有弧 042 和 240。 同样， （1,3, 2,1) 是一条 长度为 3 的 环路， 而 (1,3, 2, 4,1) 
则是 长度为 4 的 环路。 

请 注意， 环 路的起 点和终 点可以 是其中 的任一 节点。 也就 是说， 环路 (vl5  v2 ，…， ％  vO 也可 
以写为 (V2, …， V*,  Vi,  V2), 或 者写为 (v3, …， Vfo  Vi,  v2,  v3), 等等。 例如， 环路 (1 ,  3,  2,  4,  1) 也 可以写 
为 (2,  4,  1,3,2)。 

在 每条环 路中， 第一个 节点和 最后一 个节点 都是相 同的。 如 果环路 (vh  v2, …， Vh  Vi) 的节点 
%、•••、 枚中 没有 一个岀 现一次 以上， 就说 该环路 是简单 环路， 也就 是说， 简单环 路的唯 一重复 
出现在 最终节 点处。 

♦ 示例 9.2 

示例 9.1 中的 环路都 是简单 环路。 在图 9-1 中， 环路 (0,  2,  0) 是简单 环路。 不过， 也 有些环 
路不 是简单 环路， 比 如环路 (0,  2,  1,  3,  2,  0) 中节点 2 就 岀现了 两次。 

给定含 有节点 v 的非 简单 环路， 就能找 到含有 v 的简单 环路。 要知道 原因， 可 以假设 有一条 
起 点和终 点都是 v 的环路 (v,vl5v2, …, ivO。 如果该 环路不 是简单 环路， 就 只会是 以下两 种情况 
之 ^ 'o 

(1)  v 岀现了 3 次或 3 次 以上； 

(2)  存 在某个 v 之外 的节点 w， 它 出现了 两次， 也 就是， 环路 肯定是 (v, …， w, …， w, …， v) 这 
样的。 

在第 (1) 种情 况下， 可 以直接 删除倒 数第二 次出现 v 的位 置之前 的所有 节点， 结果是 一条从 v 
到 v 的更短 环路。 在第 (2) 种情 况中， 可以 删除从 w 到 w 的 部分， 将其 用一个 w 替代， 得 到环路 (v, …, 
…, V)。 不 管哪种 情况， 得 到的结 果肯定 仍然是 环路， 因为 结果中 的每条 弧都是 原环路 中的， 
因 此肯定 是出现 在该图 中的。 

在 让环路 成为简 单环路 之前， 可 能有必 要多次 重复该 变形。 因 为环路 在每次 迭代后 总会变 
得 更短， 所以 最终一 定能得 到简单 环路。 我 们刚刚 已经证 明了， 如 果图中 有一条 环路， S 卩么一 
定至少 含有一 条简单 环路。 
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♦ 示例 9.3 

给 定环路 (0,  2,  1， 3,  2,  0)， 可 以删除 第一个 2 以及它 后面的 1 和 3, 这样就 得到了 简单环 
路 (0,  2,  0)。 从实 际情况 上讲， 该环 路是从 0 开始， 到达 2, 然后是 1， 再是 3, 回到 2, 最后回 
到 0。 第一 次到达 2 时， 可以 假装这 是第二 次到达 2, 跳过了  1 和 3, 然后直 接回到 0。 

再举个 例子， 考 虑非简 单环路 (0,  0,  0)。 因为 0 岀现了 3 次， 所以可 以删除 第一个 0, 也就 
是删 除倒数 第二个 0 之前 的所有 内容。 实际上 我们是 将绕着 自环 0  4  0 行进 两次的 路径替 换为绕 
行 一次的 路径。 

如 果图中 含一条 或多条 环路， 就说该 图是有 环的。 如 果不含 环路， 就说 该图是 无环的 。而 
根据 刚才有 关简单 环路的 论证， 当且 仅当图 中含有 简单环 路时， 该 图为有 环图， 因为如 果该图 
有 环路， 那么 它肯定 有简单 环路。 

♦ 示例 9.4 

我们在 3.8 节中提 到过， 可以 用名为 “调 用图” 的有 向图表 示由一 系列函 数执行 的调用 。图 
中的节 点就是 函数， 而如 果函数 p 调用 了函数 0， 就有一 条弧尸 40。 例如， 图 9-3 展 示了与 2.9 
节中 的归并 算法对 应的调 用图。 


调 用图中 岀现的 环路意 味着算 法中的 递归。 在图 9-3 中有 4 条简单 环路， 分 别是围 绕节点 
MakeList、 MergeSort、 split 和 merge 的 长度为 1 的 环路。 而且 每条环 路都是 自环。 回想 
一下， 这些 函数都 调用了 自己， 因此 都是递 归的。 到目前 为止， 函 数调用 自己的 递归是 最常见 
的 类型， 而且 这些递 归在调 用图中 都是以 自环的 形式岀 现的。 我们 将这种 递归称 为直接 递归。 
不过， 大家偶 然会看 到间接 递归， 也 就是调 用图中 环路长 度大于 1 的 递归。 例如， 下图就 表示函 
数 P 调用 了函数 0， 而函数 0 调用 了函数 i?， 函数 回 过头来 又调用 了函数 P。 
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9.2.5 无 环路径 

如 果路径 中没有 节点岀 现一次 以上， 就 说该路 径是无 环的。 我 们刚才 在证明 对每条 环路而 
言 都存在 一条简 单环路 时给出 的论证 也说明 了以下 原则。 如果 存在从 W 到 V 的路 径， 就 存在从 W 
到 V 的无环 路径。 要知道 原因， 首先 看看从 W 到 V 的任意 路径。 如果 存在某 个节点 VV  (它 可能是 W 
或 V) 出现了 两次， 就可以 将两个 W 以及 这两个 W 之 间的所 有内容 用一个 W 替代。 就 像环路 的情况 
那样， 我们可 能不得 不多次 重复该 过程， 但 最终会 将该路 径简化 为无环 路径。 

♦ 示例 9.5 

再次 考虑图 9-1 中 的图。 路径 (0,  1， 3,  2,  1,  3,  4) 是从 0 到 4 的 包含了 环路的 路径。 我们可 
以将 注意力 放在两 个节点 1 上， 并将它 们及其 之间的 3 和 2 替换为 1， 留下 (0,  1， 3,  4)， 这是条 
无环 路径， 因为没 有节点 岀现了 两次。 将 注意力 放在两 个节点 3 上也 可以得 到同样 结果。 

9.2.6 无向图 

有时 候也可 以用没 有方向 的线条 （称 为边） 连接 节点。 正式 地讲， 边 是两个 节点组 成的集 
合。 边 {w,  v} 表 示节点 W 和 V 是 双向连 通的。 a 如果 {w， v} 是边， 那 么节点 W 和 V 就是 邻接的 或者说 
是 邻居。 带有边 的图， 也 就是有 着对称 弧关系 的图， 就 称为无 向图。 

♦ 示例 9.6 

图 9-4 表示了 夏威夷 群岛的 部分公 路图。 城市之 间的公 路就是 用边表 示的， 而 且边的 标号表 
示的 是行车 距离。 将公 路表示 为边而 不是弧 是很自 然的， 因为 公路通 常是双 向的。 


①请 注意， 边必 须刚好 有两个 节点。 由一个 节点构 成的单 一集不 是边。 因此， 虽然从 一个节 点到其 自身的 边是可 
以存 在的， 但从一 个节点 到其自 身的自 环边是 不能存 在的。 不 过某些 “无 向图” 的 定义也 允许这 种自环 存在。 
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9.2.7 无 向图中 的路径 和环路 

无 向图的 路径是 各节点 与下一 节点间 都由边 连通的 节点列 (vl5  V2, …， V&)。 也 就是说 ，对 
/=1， 2, …， A-1 而言， k， v,.+1} 是边。 请 注意， 边作为 集合， 其中 的元素 是没有 特定次 序的。 
因此， 边 {vz.， v,+1  } 也可以 表示为 {v;+1， V;  }。 

路径 (Vi， v2 ，…， vk) 的 长度是 卜1。 就像 有向图 那样， 节 点本身 是一条 长度为 0 的 路径。 

在 无向图 中定义 环路是 有点棘 手的。 问题 在于， 我们 不希望 将诸如 (W， V， W) 这样只 要存在 
边 h， V} 就存 在的路 径视作 环路。 同样， 如果 (Vi， v2, …， 枚) 是条 路径， 我们可 以来回 穿越该 
路径， 但肯定 不想把 如下路 径视为 环路。 

(Vi,  v2,  •••,  Vk-i,  Vk,  Vk—U  •••,  v2,  Vi) 

在无 向图中 定义简 单环路 的最简 单方式 可能是 指长度 不小于 3 而 且起点 和终点 为同一 节点， 
而 且预期 最后的 节点不 会与任 何节点 重复的 路径。 而 无向图 中非简 单环路 的概念 通常不 怎么使 
用， 所以后 面就不 继续讲 这个概 念了。 

和有 向环路 一样， 如 果两条 无向环 路是由 次序相 同的相 同节点 构成， 就可以 将它们 视作相 
同 环路。 如 果两条 无向环 路是由 次序相 反的相 同节点 构成， 那么它 们也是 相同的 环路。 正式地 
讲， 对从 1 到& 的每个 /， 简 单环路 (V!， V2， …， 外) 与环路 (V;， Vi+1 ，…， Vh  Vi， V2, …， V;M) 及环 
^(Vi,  Vi-1,  ",  Vi,  Vk,  Vk-1,  v;+1) 都 是等价 的。 

♦ 示例 9.7 

在图 9-4 中， （瓦西 阿瓦， 珍 珠城， 迈里， 瓦西 阿瓦） 是 长度为 3 的简单 环路。 而如果 从迈里 
开始并 沿着同 样的次 序行经 环路， 它也可 以写为 等价的 (迈 里， 瓦西 阿瓦， 珍 珠城， 迈里) 。同 
样， 也 可以从 珍珠城 开始， 并沿着 相反方 向行经 环路， 得 到等价 的环路 (珍 珠城， 迈里， 瓦西阿 
瓦， 珍珠 城)。 

再举个 例子， （拉 耶， 瓦西 阿瓦， 珍 珠城， 檀 香山， 卡内 奥赫， 拉耶) 是一条 长度为 5 的简单 
环路。 


9.2.8 习题 

(1) 考虑图 9-5 中 的图。 

(a) 总共 有多少 条弧? 
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(b)  从节点 a 到节点 共有 多少条 无环路 径？ 它们 分别是 什么？ 

(c)  节点 6 的 前导是 什么？ 

(d)  节点 的 后继是 什么？ 

(e)  总共 有多少 条简单 环路？ 列岀 它们。 不 要重复 只有起 点不同 的路径 （见 习题 (8)) 。 

(f)  列 出长度 最多到 7 的所有 非简单 环路。 

(2)  通 过将弧 w  4  V 替 换为边 {M， V}， 把图 9-5 所示 的图转 换为无 向图。 

⑷ 找岀从 《 到 d 的所有 无重复 节点的 路径。 

(b)  包 含全部 6 个节点 的简单 环路有 几条？ 列 岀这些 环路。 

(c)  节点 a 的邻 居有 哪些？ 

(3)  * 如果 某图有 10 个 节点， 那 么它最 多可以 有多少 条弧？ 它最 少可能 有多少 条弧？  一般 来说， 如果 
图有 《 个 节点， 那 么它最 多和最 少分别 可能含 有多少 条弧？ 

(4)  * 针对 无向图 的边重 复习题 (3)。 

(5)  ** 如 果某有 向图是 无环的 而且有 n 个节 点， 那 么它最 多可能 有多少 条弧？ 

(6)  在目 前为止 本书介 绍过的 内容中 找岀一 个函数 间间接 递归的 例子。 

(7)  以所有 可能的 方式写 出环路 (0， 1， 2,  0)。 

(8)  * 设 G 是有 向图， 并设 尺 是 G 的环 路上的 关系， 当 且仅当 (Wl ，…, 办, Ml) 和 (Vl ，…, 作, vO 表示相 同环路 
时有 (Wl ，…， ％,  u^Rivu  ■■■,vk,vl)0 证明 i? 是 G 的环 路上 的等价 关系。 

(9)  * 如果* S 是 定义在 某图节 点上的 关系， 当 且仅当 u=v 或 者存在 同时包 含节点 w 和 v 的环 路时有 WlSv， 
证明 关系* S 是该图 节点上 的等价 关系。 

(10) * 当讨 论无向 图中的 简单环 路时， 我 们提到 过如果 两条环 路有着 相同的 节点， 不管 是次序 相同还 
是次序 相反， 这 两条环 路其实 都是相 同的。 证明： 由表示 相同简 单环路 的有序 对组成 的关系 i? 是 
等价 关系。 

9.3 图 的实现 

实现图 的标准 方式有 两种。 一种 叫作邻 接表， 大 致上与 二元关 系的实 现方法 类似。 第二种 
叫 作邻接 矩阵， 是一 种表示 二元关 系的新 方法， 而且 更适合 表示那 些有序 对数量 占据了 可能在 
某给定 定义域 中浮动 的有序 对总数 很大一 部分的 关系。 我们将 首先为 有向图 考虑这 些表示 ，然 
后再为 无向图 考虑。 

9.3.1 邻接表 

设 节点是 由整数 0、 1、 …、 Mil 或 者等价 的枚举 类型命 名的。 一般 而言， 我们 会使用 NODE 
作为 节点的 类型， 不过可 以假设 NODE 跟 int 是一 回事。 那 么就可 以使用 7.9 节介绍 的一般 化的特 
征向 量法表 示弧的 集合， 这 种表示 就叫邻 接表。 我 们将链 表的节 点定义 如下： 

typedef  struct  CELL  *LIST; 
struct  CELL  { 

NODE  nodeName; 

LIST  next ; 

>； 

然 后创建 数组： 

LIST  successors [MAX] ; 

也就 是说， successor  [u] 这一 项包含 了一个 指针， 指向 由节点 w 的所 有后继 组成的 
链表。 


370  第 9 章 图数 据模型 


♦ 示例 9.8 

图 9-1 中 的图可 以用图 9-6 中的 邻接表 表示。 我们已 经通过 节点编 号为这 些邻接 表排过 序了， 
不过 节点的 后继可 能以任 意次序 出现在 其邻接 表中。 


successors 


0 

1 

2 

3 

4 


图 9-6 图 9-1 中的图 的邻接 表表示 


9.3.2 邻 接矩阵 

另 一种常 见的有 向图表 示方式 是邻接 矩阵。 我 们可以 创建如 下二维 数组： 

BOOLEAN  arcs [MAX] [MAX] ; 

其 中如果 存在弧 W4V， 贝 |J  arcs  [U]  [V] 的值为 TRUE, 否则 该值为 FALSE。 

♦ 示例 9.9 

图 9-1 中的图 对应的 邻接矩 阵如图 9-7 所示。 用 1 表示 TRUE, 用 0 表示 FALSE。 
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图 9-7 表示图 9-1 中的 图的邻 接矩阵 


9.3.3 对图 的操作 

如 果考虑 一些简 单的图 操作， 就 可以看 到图的 这两种 表示方 法间的 不同。 最 基本的 操作也 
许就 是确定 从节点 w 到节点 v 是否 存在弧 w  。 在 邻接矩 阵中， 要查找 arcs  [u]  [V] 看 该项是 
否为 TRUE 只需要 0  (1) 的 时间。 


邻接 矩阵与 邻接表 的对比 


当 图很稠 密时， 也 就是， 当弧 的数量 接近最 大可能 数字时 （对有 《 个节 点的图 来说是 《2)， 
就 倾向于 选择邻 接矩阵 表示。 不过， 如果 图是稀 疏的， 也就 是说， 如果可 能存在 的弧大 多数并 
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未 出现， 那么 用邻接 表表示 法就可 能节省 空间。 要知道 原因， 请注意 表示含 《个 节点的 图的邻 
接矩阵 有《2 位， 假设用 1 位 来表示 TRUE 和 FALSE, 而 不是像 本节中 已经 做过 的那样 用整数 表示。 

在一般 的计算 机中， 像邻 接表单 元这样 的结构 体是由 整数和 指针构 成的， 每 个结构 体会使 
用 32 位表示 整数， 并用 32 位表示 指针， 总 共需要 64 位。 因此， 如 果弧的 数量为 a, 就需要 64a 
位 存储该 链表， 而且存 放《 个表头 的数组 还需要 32« 位。 如果有 32«  +  64a<n2, 也就是 如果有 
a<n2/64-n/2, 邻接表 就要比 邻接矩 阵节省 空间。 如果 《 很大 的话， 就可 以舍掉 《/2 这项， 并近似 
地将 之前的 不等 式视作 《<«2/64 ， 也就 是说， 如 果可能 存在的 弧只 有不到 1/64 实际 出现， 邻接表 
就要比 邻接矩 阵节省 空间。 我们 在讨论 对图的 操作时 将更为 详细地 论证这 两种表 示法的 优劣。 
下 表总结 了为多 种操作 优先选 择的表 示法。 


操  作 

稠密图 

稀疏图 

查找弧 

邻 接矩阵 

皆可 

找后继 

皆可 

邻接表 

找前导 

邻 接矩阵 

皆可 

使用 邻接表 的话， 就要找 到对应 w 的邻 接表的 表头， 需要 0(1) 的时间 。 然后， 如果 v 不在表 
中， 就要 遍历该 表直到 末端， 或 者如果 v 存在的 话平均 要浏览 该表的 一半。 如果该 图中有 a 条弧 
和《个 节点， 那么平 均要花 0  (l+a/«) 的时 间来完 成这样 的查找 。如果 a 不大于 《 乘以某 个常数 因子， 
这个 量就是 0(1)。 不过， 在与 〃相 比时， a 越大， 使用 邻接表 表示法 验证弧 是否出 现所花 的时间 
就 越长。 在 a 大约是 《2  ( 其 最大可 能值） 的 极端情 况下， 每 个邻接 表中都 将近有 〃个节 点。 这种 
情 况下， 找到 某给定 的弧平 均要花 0(«) 的时 间。 换句 话说， 当 我们需 要查找 某给定 的弧时 ，图 
越 稠密， 就越 愿意选 择邻接 矩阵而 不是邻 接表。 

另一 方面， 我 们经常 需要找 到某给 定节点 《 的所有 后继。 要 用邻接 表找到 所有的 后继， 就要 
行向 successor  [u] 并遍历 该表， 平 均耗时 如果 <3和《 是近 似的， 就 可以在 (9 ⑴ 的时间 
内找到 W 的所有 后继。 不过 如果使 用邻接 矩阵， 就 必须检 查节点 w 所在 的那一 整行， 不管 《 是多少 
都要花 0  0) 的时 间。 因此， 对 每个节 点只有 少量边 与之连 接的图 来说， 在 需要检 查某给 定节点 
的后 继时， 使用 邻接表 要比使 用邻接 矩阵快 得多。 

不过， 假设 想要找 到某给 定节点 v 的全部 前导。 如 果用邻 接矩阵 表示， 就需 要检查 v 所在的 
那一 整列， 如果 w 所在 那行的 位置是 1， 就 意味着 w 是 v 的前 导。 这 一检查 要花费 的时间 。而 
邻接 表表示 在查找 前导时 也帮不 上忙。 必须检 查对应 每个节 点《 的邻 接表， 看看该 表中是 否含有 
V。 因此， 我们可 能要检 查所有 邻接表 的所有 单元， 而且很 可能将 检查大 多数的 单元。 因 为整个 
邻 接表结 构中单 元的数 量等于 a ， 也 就是图 中弧的 数量， 所以使 用邻接 表在含 a 条 弧的图 中找前 
导的时 间就是 0  0)。 在 这里， 邻 接矩阵 表示法 是占优 势的， 而 且图越 稠密， 这种 优势就 越大。 


度 的问题 

从节点 V 出发 的弧 的数量 就叫作 V 的出 度。 因此， 节点的 出度等 于其邻 接表的 长度， 还等于 
相 应的邻 接矩阵 中对应 V 的 那行中 1 的 数量。 进 入节点 V 的孤的 数量叫 作 V 的入 度。 入度衡 量的是 
节点 V 在某节 点的邻 接表中 出现的 次数， 而 且是相 应的邻 接矩阵 中对应 V 的那 列中 1 的 数量。 
在无向 图中， 我们 不会区 分边是 从节点 出发还 是进入 节点。 对 无向图 而言， 节点 V 的度就 


372  第 9 章 图数 据模型 


是 V 的邻 居的 数量， 也就 是含有 V 的边 {w,  v} 的 数量。 请 记住， 在集 合中， 成员的 次序是 不重要 
的， 所以 {W， V} 和 {V， W} 是相同 的边， 因此 只能计 算一次 。 而无向 图的度 则是该 图中节 点的度 
的最 大值。 例如， 如 果将二 元关系 看作无 向图， 那 么它的 度就是 3, 因为 节点最 多只能 与它的 
父 节点、 左子 节点和 右子节 点之间 有边。 对 有向图 而言， 可 以说有 向图的 入度是 其节点 入度的 
最 大值， 同样， 有向 图的出 度是其 节点出 度的最 大值。 


9.3.4 无向图 的实现 

如果 图是无 向图， 可以 假装每 条边都 被替代 为两个 方向上 的弧， 并将 得到的 有向图 用邻接 
表或 邻接矩 阵表示 出来。 如果使 用邻接 矩阵， 那 么该矩 阵是对 称的。 也就 是说， 如果称 该矩阵 
为 edges, 那 =  e<%e4v][w]。 如果 使用邻 接表表 示法， 那么边 {w， v} 就会被 表示两 
次。 我 们可以 在邻接 表中找 到对应 w 的 V， 也可 以在该 表中找 到对应 v 的 w。 这种排 列通常 是实用 
的， 因 为不可 能事先 分辨出 0， v} 这条 边是更 可能从 还是更 可能从 v 到 

♦ 示例 9.10 

考虑一 下如何 表示图 9-4 的无 向图中 最大那 部分， 也就 是表示 瓦胡岛 6 个 城市的 那部分 。在 
这里我 们要忽 略边的 标号。 对应的 邻接矩 阵表示 就如图 9-8 所示。 请 注意， 该矩 阵是对 称的。 


拉耶 

卡 内奥赫 

檀香山 

珍珠城 

迈里 

瓦 西阿瓦 

拉耶 
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1 

0 

0 

0 

1 

卡 内奥赫 
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0 

1 

0 

0 

0 

檀香山 

0 

1 

0 

1 

0 

0 

珍珠城 

0 

0 

1 

0 

1 

1 

迈里 

0 

0 

0 

1 

0 

1 

瓦 西阿瓦 

1 

0 

0 

1 

1 

0 

图 9-8 图 9-4 中的无 向图的 邻接矩 阵表示 

图 9-9 展示 了该无 向图的 邻接表 表示。 在 两种情 况下， 我 们都要 用到枚 举类型 

enum  CITYTYPE  {Laie，  Kaneohe ,  Honolulu, 

PearlCity ,  Maili ,  Wahiawa} ; 


Laie 

Kaneohe 

Honolulu 

PearlCity 

Maili 

Wahiawa 


图 9_9 图 9-4 中 无向图 的邻接 表表示 
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来作为 数组的 索引。 这种 安排多 少有些 刻板， 因 为这样 定义就 没法对 该图的 节点集 合进行 
任何 改动。 不过我 们很快 就会给 岀用整 数显式 命名节 点并用 城市名 作为节 点标号 的相似 示例， 
这样在 改变节 点集合 方面会 更具灵 活性。 

9.3.5 标号图 的表示 

假设 图的弧 （如 果是无 向图就 是边） 带有 标号。 在使用 邻接矩 阵时， 就 可以将 表示弧 
在图中 岀现的 1 替换为 该弧的 标号。 而 且必须 要有一 些可作 为矩阵 的项但 又不会 与标号 混淆的 
值， 我 们要用 该值表 示弧未 出现的 情况。 

如 果用邻 接表表 示图， 就要为 构成各 链表的 单元添 加一个 nodeLabel 字段。 如果存 在标号 
为 Z 的弧 u-^v  , 那 么在对 应节点 w 的邻接 表中就 会找到 nodeName 字段为 v 而且 nodeLabel 字段 
为 Z 的 单元。 nodeLabel 字段的 值就表 示该弧 的 标号。 

我 们要用 另一种 方式表 示节点 的标号 。对邻 接矩阵 来说， 只要创 建另一 个名为 NodeLabels 
的 数组， 并设 NodeLabels  [U] 是节点 t/的 标号。 在使 用邻接 表时， 已经有 了以节 点为索 引的表 
头 数组。 我 们要把 该数组 的元素 改为结 构体， 一 个字段 为节点 标号， 而另 一个字 段为指 向邻接 
表开头 的指针 。 

♦ 示例 9.1 1 

我们 要再次 表示图 9-4 所示图 的较大 部分， 不过这 次要加 上边的 标号， 也就是 距离。 此外， 
要给 出节点 的整数 名称， 从对应 拉耶的 0 开始， 按 照顺时 针方向 排列。 城市 的名称 是用节 点的标 
号表 示的。 要将节 点标号 的类型 定义为 长度为 32 的字符 数组。 这 种表示 方式要 比示例 9.10 的方 
式更 灵活， 因为 如果要 在数组 中分配 额外的 位置， 就 可以在 想要添 加城市 时如愿 以偿。 得到的 
图重 绘为图 9-10 的 样子， 而对应 的邻接 矩阵表 示如图 9-11 所示。 


图 9- 1 0 节点名 称为 整数而 标号为 城市名 的瓦胡 岛地图 

请 注意， 这一表 示其实 有两个 部分， cities 数组， 指示从 0 到 5 的整数 代表的 城市， 以及 
distances 矩阵， 指示 边是否 岀现以 及岀现 的边的 标号。 我 们用不 会被误 解为标 号的值 -1 表示 
未出现 的边， 因 为在本 例中， 标号是 表示城 市间距 离的， 它 肯定是 正数。 
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cities 


Q 

拉耶 

1 
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-1 

13 

-1 

-1 

3 

-1 
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-1 
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-1 

-1 
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90 
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28 

-1 

-1 

12 

15 

-1 

图 9- 11 有 向图的 邻接矩 阵表示 


可以将 该结构 体声明 如下： 

typedef  char  CITYTYPE [32] ; 
typedef  CITYTYPE  cities [MAX] ; 
int  distances [MAX] [MAX] ; 

这里的 M4X 是至 少为 6 的某个 数字， 它 限制了 可以岀 现在图 中的节 点数。 CITYTYPE 被定义 
为 长度为 32 的字符 数组， 而 且数组 cities 给 出了各 节点的 标号。 例如， 可 以预期 d—[0] 是 
"Laie" (拉 耶)。 

还 可以用 邻接表 表示图 9-10 所示 的图。 假 设常量 M 伙和 CITYTYPE 类 型都与 上面的 定义相 
同。 我们 可以将 CELL 和 LIST 类型 定义为 

typedef  struct  CELL  *LIST; 
struct  CELL  { 

NODE  nodeName; 
int  distance; 

LIST  next ; 

>； 

接 下来， 要将 cities 数组 声明为 

struct  { 

CITYTYPE  city; 

LIST  adjacent ; 

}  cities [MAX] ; 

图 9-12 展示了 用这种 方式表 示的图 9-10 所示 的图。 
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cities 


图 9-12 具有节 点标号 和边标 号的图 的邻接 表表示 


9.3.6  习题 

(1)  分别用 

(a)  邻接表 

(b)  邻 接矩阵 

表示图 9-5  (见 9.2 节的 习题） 所示 的图， 在每 种情况 下都给 岀合适 的类型 定义。 

(2)  假设图 9-5 中 的弧都 是边， 即将图 变成无 向图。 针 对该无 向图重 复习题 (1)。 

(3)  为图 9-5 中有 向图的 弧加上 标号， 标号 是由弧 的尾部 跟上弧 的头部 组成的 长度为 2 的字 符串。 例如， 
弧 a —  6 的标 号就是 字符串 ab。 还有， 假 设节点 的标号 是对应 其名称 的大写 字母。 比 如名为 的 
节 点的标 号就是 A。 针对 该带标 号的有 向图重 复习题 (1)。 

(4)  * 无标号 图的邻 接矩阵 表示与 弧集合 的特征 向量表 示有何 关系？ 

(5)  * 通过对 n 的归纳 证明， 在含 n 个节点 的无向 图中， 节点度 的和是 边数的 两倍。 注意。 不使 用归纳 
法 也是可 以证 明该命 题的， 不 过这里 要求大 家使用 归纳法 证明。 

(6)  设计 算法， 在有 向图的 (a) 邻接 矩阵； （b) 邻 接表表 示中插 人和删 除弧。 

(7)  针对无 向图重 复习题 (6)。 

(8)  我们 可以为 有向图 或无向 图的邻 接表表 示增加 “前导 表”。 在执 行以下 哪些操 作时， 会选 择这种 
表 ZN? 

(a)  查 找弧。 

(b)  找 岀所有 后继。 

(c)  找 岀所有 前导。 

在分 析中要 同时考 虑稠密 图和稀 疏图的 情况。 


9.4 无向 图的连 通分支 

我 们可以 将任意 无向图 分解为 一 个或 多个连 通分支 ( connected  component  )0 连通分 支是节 
点的 集合， 分支 的任意 成员之 间都是 存在路 径的。 此外， 连通分 支是极 大的， 也就 是说， 连通 
分支 中的节 点没有 与分支 外的任 意节点 连接的 路径。 如果图 是由单 个连通 分支组 成的， 那么就 
说该 图是连 通图。 
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连通分 支的物 理解释 

如 果给定 了绘制 出的无 向图， 就 很容易 看出连 通分支 。将 边想象 成弦。 如果拿 起任一 节点， 
包含该 节点作 为成员 的连通 分支就 会随之 而来， 而其 他连通 分支中 的成员 则会待 在原地 。当 然， 
这些 “ 眼球” 很容易 完成的 任务让 计算机 完成起 来却不 一定很 容易。 找出 图中连 通分支 的算法 
是本节 的重要 主题。 


♦ 示例 9.12 

再次 考虑图 9-4 中有 关夏威 夷群岛 的图。 其 中含有 3 个连通 分支， 分 别对应 3 个岛。 最 大的分 
支是 由拉耶 （ Laie  )、 卡内奥 赫（ Kaneohe  )、 檀香山 （ Honolulu  )、 珍珠城 （ Pearl  City  )、 迈里 （ Maili ) 
和瓦 西阿瓦 （ Wahiawa) 组 成的。 这些城 市都是 在瓦胡 岛上， 而 且它们 显然是 由公路 （也 就是 
边的 路径） 相互 连接。 还有， 瓦胡岛 上的公 路是没 法连接 到其他 岛的。 按 照图论 的说法 就是， 
在图 9-4 中， 不 存在从 上面提 到的这 6 个城市 到其他 城市的 路径。 

第二 个分支 是由毛 伊岛上 的城市 拉海纳 （Lahaina)、 卡 胡卢伊 （Kahului)、 哈纳 （ Hana  ) 和 
凯奥凯 阿 （ Keokea) 组 成的。 第三个 分支是 夏威夷 “ 大岛” 上的城 市希洛 （ Hilo  )、 科纳 （ Kona) 
和卡 姆埃拉 （Kamuela)。 

9.4.1 作 为等价 类的连 通分支 

另 一种看 待连通 分支的 实用方 式就是 将其视 为等价 关系尸 上的等 价类， 其中 P 是定义 在无向 
图节 点上的 关系， 当 且仅当 存在从 W 到 V 的路 径时有 Wv。 很容 易验证 P 是等价 关系。 

(1) P 是自 反的， 也就 是说， 对任 意节点 w 有 因 为从任 意节点 到其自 身都有 长度为 0 的 
路径。 

(2)  P 是对 称的。 如果 wPv， 那么 存在从 w 到 v 的路 径。 因为该 图是无 向图， 所以 相反的 节点序 
列也是 路径。 因此有 vA/o 

(3)  P 是传 递的。 假设 w/V 和 wPv 都 成立， 那么 存在从 W 到 w 的 路径， 比 方说是 

(^1,^2.  "\Xj) 

这里有 W  =：^且州 =Xy。 还有， 存在从 W 到 V 的路径 0^,72, … ,乃)， 其中 W  =少1 而且 v  =乃。 如果 
将这 些路径 连接在 一起， 就得 到了从 碑如 的路径 ，即 

(u  =  xh  x2,  •••,  Xj=w=yhy2, …， 凡 = v) 


♦ 示例 9.13 

考虑图 9-10 中从 檀香山 到迈里 的路径 (檀 香山， 珍 珠城， 瓦西 阿瓦， 迈 里)。 再 考虑该 图中从 
迈里 到拉耶 的路径 (迈 里， 珍 珠城， 瓦西 阿瓦， 拉 耶)。 如 果将这 两条路 径连在 一起， 就 得到了 
从檀 香山到 拉耶的 路径： 

(檀 香山， 珍 珠城， 瓦西 阿瓦， 迈里， 珍 珠城， 瓦西 阿瓦， 拉耶） 

这条 路径刚 好是条 环路。 正如在 9.2 节中提 过的， 我 们总是 能删除 环路得 到无环 路径。 在这 
种情 况下， 要消除 环路， 一种方 法就是 将两个 瓦西阿 瓦以及 它们之 间的节 点用一 个瓦西 阿瓦替 
代， 得到 从檀香 山到拉 耶的无 环路径 
(檀 香山， 珍 珠城， 瓦西 阿瓦， 拉耶） 
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因为 P 是等价 关系， 所 以它把 问题中 无向图 节点的 集合分 成了等 价类。 包 含节点 v 的类 就是 
满足 vPw 的所 有节点 W 的集 合。 此外， 等价 类的其 他属性 还有， 如 果节点 W 和 V 在不同 的等价 类中， 
那么不 可能有 W/V， 也就是 说不存 在从一 个等价 类中的 某节点 到另一 等价类 中节点 的路径 。因 此， 
由 “ 路径” 关系尸 定义的 各等价 类就是 该图的 各连通 分支。 

9.4.2 计算连 通分支 的算法 

假设 我们想 构建图 G 的连通 分支。 一种方 式是从 G 中没 有边的 节点组 成的图 开始 。然 
后考虑 G 的边， 一 •次 一 '条， 构建 一 '系 列的图 G。、 Gi、 …， 其中 Gi 是由 G 的节 点和 G 的前 / 条边 
构 成的。 

依据。 Go 是由 G 中没 有边 的节点 组成。 每个节 点本身 是一个 分支。 

归纳。 假 设在考 虑了前 / 条边 后得 到了图 G, •的连 通分 支， 现在考 虑第杆 1 条边： 0， v}。 

(1)  如果 w 和 v 在 的 同一分 支中， S 卩么 G/+1 有着与 G, 相 同的连 通分支 集合， 因 为这条 新的边 
不会连 接到任 何尚未 连通的 节点。 

(2)  如果 w 和 v 在 不同分 支中， 我们 可以合 并包含 w 和 v 的 分支， 得到 G,+1 的连通 分支。 图 9-13 
解释了 为什么 存在从 w 所在分 支中任 一节点 x 到 v 所在分 支中任 一节点 7 的 路径。 我们沿 着第一 
个分 支中从 ^ 到 W 的路 径走， 然 后到边 {w， v}， 最后 经过已 知存在 于第二 个分支 中的从 V 到: F 的 
路径。 

当以这 种方式 考虑过 所有的 边时， 就得到 了全图 的连通 分支。 


♦ 示例 9.14 

来考虑 一下图 9-4 中 的图。 虽然 我们能 够以任 意次序 考虑这 些边， 不 过为了 9.5 节中 某一算 
法的 需要， 在 这里按 照边标 号从小 到大的 次序列 出了这 些边。 边的列 表如图 9-14 所示。 

首先， 所有 13 个节 点都在 它们各 自的分 支中。 当考虑 1 号边 { 卡内 奥赫， 檀香山 } 时， 我们就 
将 这两个 节点合 并到了 一个分 支中。 而第 二条边 { 瓦西 阿瓦， 珍珠城 } 则合并 了这两 个城市 。第 
三条边 是{珍 珠城， 檀香 山}， 这条边 把包含 这两个 城市的 分支合 并了。 至此， 这 些分支 各含两 
个 城市， 所 以就有 了具有 4 个 城市的 分支， SIH 瓦西 阿瓦， 珍 珠城， 檀 香山， 卡内奥 赫}。 而所有 
其他 城市都 还在它 们自己 的分 支中。 
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边 

城市 1 

城市 2 

距  离 

1 

卡 内奥赫 

檀香山 

11 

2 

瓦 西阿瓦 

珍珠城 

12 

3 

珍珠城 

檀香山 

13 

4 

瓦 西阿瓦 

迈里 

15 

5 

卡 胡卢伊 

凯 奥凯阿 

16 

6 

迈里 

珍珠城 

20 

7 

拉海纳 

卡 胡卢伊 

22 

8 

拉耶 

卡 内奥赫 

24 

9 

拉耶 

瓦 西阿瓦 

28 

10 

科纳 

卡 姆埃拉 

31 

11 

卡 姆埃拉 

希洛 

45 

12 

卡 胡卢伊 

哈纳 

60 

13 

科纳 

希洛 

114 

图 9-14 

以标 号为次 序的图 9-4 中 的边 

4 号边是 { 迈里， 瓦西阿 瓦}， 并且将 迈里添 加到大 分支中 。第 5 条边是 {卡胡 卢伊， 凯 奥凯阿 } ， 
它 将这两 个城市 合并到 一条分 支中。 当考虑 6 号边 {迈 里， 珍 珠城} 时， 我们看 到了新 现象： 这条 
边 的两端 已经存 在于相 同的分 支中。 因此 我们不 再合并 6 号边。 

7 号边是 {拉 海纳， 卡胡卢 伊}， 它 将节点 拉海纳 添加到 了分支 彳卡胡 卢伊， 凯奥 凯阿} 上 ，形 
成 了分支 {拉海 纳， 卡胡 卢伊， 凯奥凯 阿}。 而 8 号边 则将拉 耶添加 到了最 大的分 支上， 最 大分支 
现在就 成了： 

{ 拉耶， 卡内 奥赫， 檀 香山， 珍 珠城， 瓦西 阿瓦， 迈里 } 

第九条 边{ 拉耶， 瓦西阿 瓦}连 接了该 分支中 的两个 城市， 因 此被忽 略掉。 

10 号边 将卡姆 埃拉和 科纳组 成一条 分支， 而且 11 号 边为这 一分支 添加了 希洛。 12 号 边则将 
哈纳添 加到了 {拉 海纳， 卡胡 卢伊， 凯奥 凯阿} 这一分 支中。 最后， 13 号边 {希 洛， 科纳} 连接的 
是已 经存在 于同一 分支中 的两个 城市。 因此， 最后 总共有 如下几 个连通 分支。 

{ 拉耶， 卡内 奥赫， 檀 香山， 珍 珠城， 瓦西 阿瓦， 迈里 } 

{拉 海纳， 卡胡 卢伊， 凯奥 凯阿， 哈纳 } 

{ 卡姆 埃拉， 希洛， 科纳 } 

9.4.3 用于 形成分 支的数 据结构 

如果 非正式 地考虑 9.4.2 节中 描述的 算法， 我 们需要 能迅速 完成以 下两项 工作： 

(1)  给定某 节点， 找 出其当 前所在 分支； 

(2)  将 两个分 支合并 为一个 分支。 

有很 多种数 据结构 可以支 持这些 操作。 我 们将研 究一种 简单却 又能带 来极佳 性能的 想法。 
关键在 于将每 个分支 中的节 点都放 进一棵 树中。 ® 分支 是由树 的根表 示的。 上述两 项操作 现在可 
以 按照如 下方式 实现。 


① 请务必 理解， 在接下 来的内 容中， “ 树”和 “图” 指的是 不同的 结构。 图的节 点与树 的节点 间存在 一一 对应 ，也 
就 是说， 每个 树节点 都表示 一个图 节点。 不过， 树 中父子 节点之 间的边 并不一 定是图 中存在 的边。 
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(1)  要找 到图中 节点的 分支， 就要 找到该 节点在 树中的 代表， 然 后沿着 树中的 路径到 达表示 
该分 支的根 节点。 

(2)  要合 并两个 不同的 分支， 我们就 要让一 个分支 的根节 点成为 另一分 支根节 点的子 节点。 

♦ 示例 9.15 

我们遵 循示例 9. 14 介绍的 步骤， 展 示按照 特定步 骤创建 的树。 首先， 每个节 点本身 都是一 
棵单节 点树。 而第 一条边 { 卡内 奥赫， 檀香山 } 会让 我们把 两棵单 节点树 {卡 内奥赫 }和{ 檀香山 } 
合并为 一棵双 节点树 { 卡内 奥赫， 檀香山 }。 任 何一个 节点都 可以作 为另一 个的子 节点。 不过在 
这里 假设檀 香山是 根节点 卡内奥 赫的子 节点。 

同样， 第二条 边{ 瓦西 阿瓦， 珍珠城 }合 并了两 棵单节 点树， 而且 可以假 设珍珠 城是根 节点瓦 
西阿 瓦的子 节点。 至此， 当前 的分支 集合可 以用图 9-15 所示 的两棵 树以及 9 棵单节 点树来 表示。 


瓦 西阿瓦  卡 内奥赫 

珍珠城  檀香山 

图 9-15 合并 分支得 到的前 两棵重 要的树 


第三条 边{珍 珠城， 檀香山 } 合并了 这两个 分支。 假设瓦 西阿瓦 是另一 个根节 点卡内 奥赫的 
子 节点。 那么得 到的分 支就可 以用图 9-16 中的树 表示。 


卡 内奥赫 


瓦 西阿瓦  檀香山 


珍珠城 

图 9-16 表示含 4 个节 点的分 支的树 

当考虑 第四条 边{ 瓦西 阿瓦， 迈里} 时， 就 要把迈 里合并 到用图 9-16 中 的树表 示的分 支中。 
既可 以把迈 里作为 卡内奥 赫的子 节点， 也可 以将卡 内奥赫 当作迈 里的子 节点。 不 过这里 选择前 
者， 因 为这样 可以让 树的高 度保持 比较小 的值， 而让 大分支 的根节 点作为 小分支 根节点 的子节 
点 会让树 中的路 径变得 更长。 在 确定节 点的分 支时， 长路径 会让我 们要花 更多时 间才能 沿着路 
径 到达根 节点。 通 过遵循 这样的 策略， 并 在分支 高度相 同时作 岀任意 觉得， 我 们可能 得到图 9-17 
中表示 3 条最 终连通 分支的 3 棵树。 


卡 内奥赫 


檀香山 


拉海纳 


凯 奥凯阿 


哈纳 


拉耶 


卡 姆埃拉 

/  \ 

科纳  希洛 


图 9-17 使用 树合并 算法表 示最终 连通分 支的树 
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遵 循示例 9.15 中的 经验， 我们 制订了 这样的 策略， 在合 并两棵 树时， 高度较 小的根 节点要 
成为高 度较大 的根节 点的子 节点。 如 果岀现 高度相 等的情 况就任 选一种 方式。 从 这一策 略中得 
到 的重要 收获就 是树的 高度只 能以树 中节点 数对数 的速度 增长， 而 且在实 践中， 树的高 度往往 
还 更小。 因此， 当沿 着一条 路径从 树的节 点到达 其根节 点时， 所花 的时间 最多与 树中节 点数的 
对数成 比例。 我们可 以通过 对高度 的归 纳证 明如下 命题， 从而得 出这一 对数 边界。 

命题 况/0。 按 照将较 低高度 合并到 较高高 度的策 略形成 的高度 A 的树， 至少有 个节 点。 

依据。 依据是 6=0。 这 样的树 肯定只 有一个 节点， 而 且因为 ^=1， 所以 命题况 0) 成立。 

归纳。 假设况 幻 对某个 彡 0 成立， 并考虑 高度为 力+1 的树 r。 在 通过合 并形成 r 的过 程中 
的某个 时刻， 树的高 度第一 次达到 力+1。 让 树的高 度达到 A+i 的唯一 方式就 是让某 高度为 的 
树乃 的根 节点成 为某树 r2 根节 点的子 节点。 7是7^ 加上 r2, 可 能还要 加上一 些后来 要加上 的其他 
节点， 如图 9-18 所示。 


现在， 根 据归纳 假设， K 至少有 2/; 个 节点。 因 为它的 根节点 成为了 乃根 节点的 子节点 ，所 
以 r2 的 高度也 至少是 力。 因此， r2 也至 少有 个节 点。 7是7\ 加上 r2, 可能还 有更多 节点组 成的， 
所以 r 至少有 2/!+2/i  =  2/l+1 个 节点。 这 就是况 A+1)， 所以我 们证明 了归纳 步骤。 

现 在就知 道了， 如果一 棵树有 〃个 节点且 高度为 I 那么 肯定有 《多2\ 如果在 两边取 对数， 
就得到 log2«>/?， 也就 是说， 树 的高度 不可能 大于节 点数的 对数。 这样 一来， 当 我们沿 着任意 
路径从 节点到 达树的 根节 点时， 都要花 <9  (log«) 的时 间。 

现在要 更详细 地描述 实现这 些想法 的数据 结构。 首先， 假设用 NODE 类型 来表示 节点。 就像 
以前 那样， 我 们假设 NODE 的 类型为 int， 而且 MAX 至 少是图 中所含 节点的 数量。 对图 9-4 中的例 
子 而言， 要设 MAX 为 13。 

还要 假设由 EDGE 类 型的单 元组成 的链表 edges, 这 些单元 是由如 下声明 定义的 

typedef  struct  EDGE  *EDGELIST ; 

struct  EDGE  { 

NODE  nodel，  node2; 

EDGELIST  next; 

>； 

最后， 对图 中的每 个节点 而言， 还需 要一个 与之对 应的树 节点。 树 节点是 TREENODE 类型 
的结 构体， 由以 下内容 组成。 

(1)  父 指针， 让我们 能在该 图的节 点上构 建树， 并沿 着树到 达其根 节点。 父 指针为 NULL 就 
标 识该节 点为根 节点。 

(2)  以给定 节点为 根节点 的树的 高度。 只有 该节点 是根节 点时才 使用该 高度。 

因此可 以将 TREENODE 类型定 义为： 
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/* 返 回树的 根节点 位置， 该 位置含 有对应 
图节点 a 的树 节点 x  */ 

TREE  find  (NODE  a,  TREE  nodes  []) ; 

TREE  x; 

x  =  nodes [a] ; 
while  (x->parent  ! =  NULL) 
x  =  x->parent ; 
return  x; 


/* 让根节 点较低 的树成 为根节 点较高 的树的 子树， 
从而 将根节 点分别 
为 x 和 y 的树 合并为 一棵树 V 

void  merge (TREE  x,  TREE  y) 

TREE  higher ,  lower ; 

if  (x->height  >  y->height)  { 
higher  =  x; 
lower  =  y; 

> 

else  { 

higher  =  y; 
lower  =  x; 

> 

lower->parent  =  higher ; 

if  (lower->height  ==  higher->height) 
++(higher->height) ; 


typedef  struct  TREENODE  *TREE ; 
struct  TREENODE  { 
int  height ; 

TREE  parent ; 


我们 还要定 义数组 

TREE  nodes [MAX] : 

以便 将每个 图节点 与树中 某个节 点关联 起来。 应当 明白， 数组 nodes 中的每 一项都 是指向 
树中 节点的 指针， 而该 数据项 也是图 中节点 的唯一 代表。 

图 9-19 展 示了两 个重要 的辅助 函数。 第 一个是 find， 它接 受节点 fl, 取指向 其对应 树节点 X 
的 指针， 沿着 x 的父 指针及 其祖先 向上， 直到 到达根 节点。 这种对 根节点 的搜索 是由第 (2) 行和 
第 (3) 行执 行的。 如果找 到了根 节点， 就 会在第 (4) 行 返回指 向该根 节点的 指针。 请 注意， 在第 (1) 
行， NODE 类型 一定是 int, 这样才 能用它 来作为 nodes 数组的 索引。 


图 9- 19 辅 助函数 f  ind 和 merge 

第二个 函数是 merge,  $它 接受指 向两个 树节点 的指针 jc 和 ;；， 要让函 数正常 工作， 它 们一定 
是需 要合并 的两棵 树的根 节点。 第 (5) 行的测 试确定 了哪个 根节点 的高度 更大， 如 果相等 就直接 


、 - /  、 — ■ /  \ ― /  \ — ^ /  \ ― /  - - .  \ - V  \ - / 

5  6  7  89  0  12 

/IV  /IV  /(V  /fv/iv  111 


① 不要 把该函 数与第 2 章和第 3 章中 用于归 并排序 的同名 函数弄 混了。 
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ffinclude  <stdio .h> 

# include  <stdlib.h> 

#define  MAX  13 
typedef  int  NODE; 
typedef  struct  EDGE  *EDGELIST ; 
struct  EDGE  { 

NODE  nodel ,  node2 ; 

EDGELIST  next ; 

>； 

typedef  struct  TREENODE  *TREE; 
struct  TREENODE  { 
int  height ; 

TREE  parent ; 

>； 

TREE  find(N0DE  a,  TREE  nodes []) ; 
void  merge (TREE  x,  TREE  y) ; 

EDGELIST  makeEdgesO  ; 

main() 

{ 

NODE  u; 

TREE  a,  b; 

EDGELIST  e; 

TREE  nodes [MAX] ; 

/* 初始化 节点， 使得 每个节 点都在 由其自 身构成 的树中 */ 

for  (u  =  0;  u  <  MAX;  u++)  { 

nodes [u]  =  (TREE)  malloc (sizeof (struct  TREENODE) ) ; 
nodes [u] ->parent  =  NULL; 
nodes [u] ->height  =  0; 

>  " 

/* 将 e 初始化 为存放 图中各 边的表 */ 

e  =  makeEdges(); 

/* 检查每 条边， 如果 边的的 端点在 不同组 分中， 就 将它们 
合并 */ 

while  (e  !=  NULL)  { 

a  =  f ind(e->nodel ,  nodes) ; 
b  =  f ind(e->node2 ,  nodes) ; 
if  (a  !=  b) 

merge (a,  b) ; 
e  =  e->next ; 

> 


选择 在采⑹ 行至采 (7) 行或弟 (8) 行至乐 (9) 行， 会根 据具体 的情况 将较咼 的根节 点赋值 给局部 
变量 higher ， 而较 低的根 节点则 被赋值 给局 部变量 lower。 接 着在第 (10) 行较低 的根节 点会成 
为较 高根节 点的子 节点， 而在第 (11) 行和第 (12) 行， 如果 乃和乃 的高度 相等， 较高 根节点 （也就 
是现在 合成的 树的根 节点） 的高度 要增加 1。 较 低根节 点的高 度保持 不变， 不过现 在这个 值已经 
没有意 义了， 因 为较低 根节点 现在已 经不再 是根节 点了。 

找 岀连通 分支的 算法的 核心内 容如图 9-20 所示 。假 设函数 makeEdges  ( ) 会把 手头的 图转换 
成由图 中的边 组成的 链表， 这 里并未 展示该 函数的 代码。 


、 - / 、 - /  \ - /  \ - /  S - / 、 - / 

6  7  8  9  0  1 
1  1 


> 


图 9-20 用来找 岀连通 分支的 C 语言 程序 
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用 来找出 连通分 支的更 优算法 


我 们会在 9.6 节中 研究深 度优先 搜索时 看到， 其实 还有更 好的方 法来计 算连通 分支， 它只 
需 要花费 0(m) 的时 间， 而不是 (9  (m  log  «) 的时间 。 不过， 9.4 节中 给出的 数据结 构本身 也很实 
用， 我们在 9.5 节中 就要看 到另一 个使用 该数据 结构的 程序。 


图 9-20 的第⑴ 行到第 (4) 行会浏 览数组 nodes, 而在第 (2) 行会 为每个 节点创 建一个 树节点 。 
在第⑶ 行其 parent 字段会 被置为 NULL, 表 示它是 其自身 构成的 树的根 节点， 而在第 (4) 行会将 
其 height 字 段置为 0, 以 反映出 在由该 节点自 己构成 的树中 就只有 它这一 个节点 。 

然后第 (5) 行会把 e 初 始化为 指向边 链表中 的第一 条边， 而且第 (6) 行到第 (1 1) 行 的循环 会一次 
检 查每一 条边。 在第 (7) 行和第 (8) 行， 我们 找到了 当前边 两个端 点的根 节点。 接 着在第 (9) 行要测 
试 这些根 节点是 否为不 同的树 节点。 如 果是， 那么 当前边 的两个 端点在 不同分 支中， 而 且我们 
要在第 (10) 行合 并这些 分支。 如 果该边 的两个 端点在 同一分 支中， 就 跳过第 (10) 行， 因此 就不会 
对树 集合造 成任何 改变。 最后， 第 (11) 行会 带着我 们沿着 边链表 行进。 

9.4.4 连通 分支算 法的运 行时间 

我们 来确定 一下图 9-20 所示 的算法 处理一 幅图要 花多长 时间。 假设 该图有 《个 节点， 并设节 
点 数和边 数的较 大者为 m。 ® 首先 看看这 些辅助 函数。 我们论 证过， 将高度 较低的 树合并 到高度 
较 高的树 中的策 略可以 保证从 任意树 节点到 达其根 节点的 路径都 不会比 log  « 长。 因此， find 
会花费 (log  «)的 时间。 

接 下来要 查看图 9-19 中 的函数 merge。 它的每 条语句 都花费 0  (1) 的 时间。 因 为其中 不含循 
环 或函数 调用， 所以整 个函数 也只花 0(1) 的 时间。 

最后来 看看图 9-20 所 示的主 程序。 第 (1) 行到第 (4) 行的 for 循环 循环体 要花费 0  (1) 的 时间， 
而且 该循环 要迭代 〃次。 因此， 第 (1) 行到第 (4) 行 所花的 时间是 0  («)。 假设第 (5) 行 要花费 0  (m) 
的 时间。 最后， 考虑 一下第 (6) 行到第 (11) 行的 while 循环。 在循环 体中， 第 (7) 和第 (8) 行 每行都 
要花费 0 (log «) 的时 间， 因 为它们 都调用 了函数 find, 而 我们刚 刚已经 确定过 find 要花费 (9 (log 
«) 的时 间。 第 (9) 行和第 (11) 行显 然只要 0(1) 的时 间。 第 (10) 行同 样只要 0(1) 的时 间， 因为 我们刚 
刚 确定了 merge 花费 0(1) 的 时间。 因此， 整个 循环体 要花费 0 (log «)的 时间。 而 while 循 环会迭 
代 m 次， 其中 m 是边的 数量。 因此， 该 循环的 运行时 间就是 0(mlog«：)， 也 就是迭 代的次 数乘以 
循环 体运行 时间的 边界。 

然后， 一般 来说， 整个 程序的 运行时 间可以 表示为 0(«+m+mlog ⑷。 不过， m 至少是 〜 所 
以 w  log  «这 一 '项就 主导了 其他 两项。 因此， 图 9-20 所 7K 程 序的运 行时间 就是 6)  (w  log  «)。 

9.4.5 习题 

(1)  图 9-21 列 岀了密 歇根州 的一些 城市以 及它们 之间的 公路里 程数。 就本 习题的 目的而 言可以 忽略里 
程数。 以本 节描述 的方式 检查每 条边， 构 建该图 的连通 分支。 

(2) * 通过对 & 的归纳 证明， 有 Fh 节 点的连 通分支 至少有 &-1 条边。 


①把 m 当作边 的数量 是很正 常的， 不过 在某些 图中， 节 点比边 更多。 
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城市 1 

城市 2 

距  离 

马凯特 （ Marquette  ) 

苏圣玛 丽 （ Sault  Ste.  Marie  ) 

153 

萨吉诺 （ Saginaw ) 

弗林特 （ Flint ) 

31 

大急流 城 （ Grand  Rapids  ) 

兰辛 （ Lansing ) 

60 

底特律 ( Detroit ) 

兰辛 （ Lansing ) 

78 

埃斯 卡诺巴 （ Escanaba  ) 

苏圣玛 丽 （ Sault  Ste.  Marie  ) 

175 

安娜堡 （Ann Arbor) 

底特律 （ Detroit ) 

28 

安娜堡 (Ann Arbor) 

巴特尔 克里克 （ Battle  Creek ) 

89 

巴特尔 克里克 （ Battle  Creek  ) 

卡拉马 祖 （ Kalamazoo  ) 

21 

梅诺米 尼 （ Menominee  ) 

埃斯 卡诺巴 （ Escanaba ) 

56 

卡拉马 祖 （ Kalamazoo  ) 

大急流 城 （ Grand  Rapids  ) 

45 

埃斯 卡诺巴 （ Escanaba  ) 

马凯特 （ Marquette ) 

78 

巴特尔 克里克 （ Battle  Creek ) 

兰辛 （ Lansing ) 

40 

弗林特 （ Flint ) 

底特律 （ Detroit ) 

58 

图 9-21 密歇根 州某些 城市间 的距离 

(3)  * 有一 种更简 单的方 法实现 “合 并”和 “寻 找”， 在使用 这种方 法时， 要使 用以节 点为索 引的数 
组， 给 岀每个 节点的 分支。 一 开始， 每个 节点都 在由它 自己构 成的分 支中， 而且我 们要用 相应的 
节点 来为这 种分支 命名。 要找到 节点的 分支， 只 要查找 对应的 数组项 即可。 要合并 分支， 就要沿 
数 组向下 行进， 将 所有出 现第一 个分支 的地方 都改为 第二个 分支。 

(a)  编写 C 语言 程序实 现这一 算法。 

(b)  该程序 的运行 时间是 多少？ 将其 表示为 节点数 《 与 节点数 和边数 较大值 m 的函 数。 

(c)  对某些 边数和 节点数 而言， 这 种实现 其实比 本章中 描述的 实现还 要好。 什么 时候这 种实现 
更好？ 

(4)  * 假 设本节 的连通 分支算 法中不 是将较 低的树 合并到 较高的 树中， 而 是将节 点较少 的树合 并到节 
点 较多的 树中。 这种 连通分 支算法 的运行 时间是 否仍为 0  (m  log  «.)? 

9.5 最小 生成树 

连通分 支问题 有个很 重要的 推广， 其中 给定了 以数字 （ 整数或 实数） 作 为边标 号的无 向图。 
我们不 仅要找 到连通 分支， 而且 要为各 分支找 到连接 分支中 各节点 的树。 此外， 该树一 定是最 
小的， 意味着 边标号 的和是 尽可能 小的。 

这里 讨论的 树与第 5 章讨 论过的 树不太 一样。 这里的 树中没 有节点 会被指 定为根 节点， 而且 
没有子 节点或 子节点 次序的 概念。 本节 中提到 “树 ”时， 指 的是没 有根没 有次序 的树， 就是那 
些不含 简单环 路的无 向图。 

无向图 G 的生成 树是由 G 的节 点与 G 的边 的子集 按照如 下要求 一起构 成的。 

(1)  连通 节点， 也就 是说， 任 意两个 节点之 间都存 在只用 生成树 中的边 构成的 路径。 

(2)  形成 无根且 无次序 的树， 也就 是说， 树 中没有 （简 单） 环路。 

如果 G 是单 个连通 分支， 就总是 存在生 成树。 最 小生成 树是给 定图对 应的任 意生成 树中边 
标 号的和 最小的 那个。 
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♦ 示例 9.16 

设图 G 是如图 9-4 或图 9-10 所 示对应 瓦胡岛 的连通 分支。 图 9-22 展示了 一种可 能的生 成树。 
它是通 过删除 { 迈里， 瓦西 阿瓦} 和{ 卡内 奥赫， 拉耶} 这两条 边并剩 下其余 5 条边形 成的。 这棵树 
的权 （也 就是 边标号 之和） 为 84。 正 如我们 将要看 到的， 这 不是最 小值。 


有 根树与 无根树 


无根 树的概 念似乎 不应该 很奇怪 。 其实 我们可 以从无 根树中 任选 一个节 点作为 根节点 。这 
样 就为所 有的边 给出了 远离根 节点， 或者是 从父节 点到子 节点的 方向。 从物 理意义 上讲， 这就 
像 是从无 根树的 某个节 点提起 该树， 让该 树其他 部分从 选定的 节点处 吊起来 。 例如， 可 以将珍 
珠城 作为图 9-22 所 示生成 树的根 节点， 它 就成了 下 面这样 


珍珠城 


迈里  瓦 西阿瓦  檀香山 


拉耶  卡 内奥赫 

如 果愿意 的话， 可 以为每 个节点 的子节 点排定 次序， 不过 这种次 序是任 意的， 与原 来的无 
根树之 间没有 关系。 


9.5.1 找 到最小 生成树 


有 多种用 于找到 最小生 成树的 算法。 我 们将研 究其中 一种， 名为克 鲁斯卡 尔算法 （Kruskal’s 
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algorithm  ), 它是对 9.4 节 中讨论 过的寻 找连通 分支算 法的一 种简单 扩展。 需要进 行的修 改如下 
所述。 

(1)  需要按 照边标 号的递 增次序 考虑这 些边。 我们 在示例 9.14 中刚 好选择 了这种 次序， 不过 
对连 通分支 而言这 不是必 要的。 

(2)  在考虑 边时， 如果边 的两个 端点在 不同分 支中， 就要选 择该边 构成生 成树并 且合并 
两个 分支， 正如 9.4 节的算 法中所 做的。 否则， 就 不选择 这条边 构成生 成树， 当 然也就 不用合 
并 分支。 

♦ 示例 9.17 

Acme  Surfboard  Wax 公司 在如图 9-4 所示的 13 个城 市中都 有办公 地点。 它希 望从电 话公司 
租用专 用的数 据传输 线路， 我们假 设电话 线路是 沿着图 9-4 中的边 表示的 公路架 设的。 在不同 
的岛屿 之间， 该公司 必须使 用卫星 传输， 而成 本与分 支数量 是成正 比的。 不过， 对地面 传输线 
路 来说， 电话公 司是按 里程收 费的。 ® 因此， 我们希 望为图 9-4 所示 的图中 各连通 分支找 岀最小 
生 成树。 

如果按 照分支 分开这 些边， 就 可以分 别为各 分支运 行克鲁 斯卡尔 算法。 不过， 如果 我们尚 
不知道 有哪些 分支， 就必须 将所有 的边放 在一起 考虑， 从最小 的标号 开始， 按照图 9-14 的次序 
进行。 正如 9.4 节中 那样， 我 们先从 由节点 本身构 成的分 支中的 各节点 开始。 

首先考 虑标号 最小边 {卡内 奥赫， 檀香 山}。 这条边 将这两 个城市 合并到 一个分 支中， 而且 
因为我 们执行 了合并 操作， 所以就 选择了 该边用 来构成 最小生 成树。 2 号边是 {瓦西 阿瓦， 珍珠 
城 }， 而且 因为这 条边也 是合并 了两个 分支， 所以 它也被 选来构 成该生 成树。 同样， 第三条 边{珍 
珠城， 檀香山 } 和第 四条边 { 瓦西 阿瓦， 迈里 }也 合并了 分支， 因 此也被 放人生 成树。 

第五条 边{ 卡胡 卢伊， 凯奥凯 阿} 合并了 这两个 城市， 而且也 被接纳 到生成 树中， 虽然这 
条 边是要 成为表 示毛伊 岛分支 的生成 树的一 部分， 而不是 和前四 条边那 样是瓦 胡岛分 支的一 
部分。 

第六条 边{ 迈里， 珍珠城 }连 接着已 经出现 在同一 分支中 的两个 城市。 因此， 该边会 被生成 
树拒之 门外。 即便 我们必 须选择 某条标 号更大 的边， 也不 能选择 { 迈里， 珍珠 城}， 因为 这样一 
来 就会在 迈里、 瓦 西阿瓦 和珍珠 城间形 成一条 环路。 在生 成树中 是不可 以有环 路的， 所以这 3 
条边 中必须 有一条 被排除 在外。 随着 我们按 照标号 的次序 考虑这 些边， 最 后的边 肯定有 着最大 
的 标号， 也是最 佳方案 要排除 掉的。 

第七条 边{拉 海纳， 卡胡卢 伊} 和第 八条边 { 拉耶， 卡内奥 赫} 都被 生成树 接纳， 因为 它们合 
并了 分支。 而 9 号边 { 拉耶， 瓦西阿 瓦}会 因为它 的端点 在同一 分支中 而不被 接受。 我们 会接受 10 
号边和 11 号边， 它 们形成 了表示 “ 大岛” 分 支的生 成树， 而 且我们 会接纳 12 号边 以完成 毛伊岛 
分支。 13 号边 不会被 接纳， 因为 它连接 的科纳 和希洛 已经被 10 号边和 11 号 边连接 到同一 分支中 
了。 得到 各分支 的生成 树如图 9-23 所示。 


① 这是 一种为 租用的 电话线 路收费 的可行 方式。 人们可 以找出 连接这 些所需 场所的 最小生 成树， 且 收费是 根据该 
树 的权得 出的， 而不 用考虑 提供电 话连接 的实际 方式。 
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图 9-23 图 9-4 所 示的图 对应的 生成树 


9.5.2 克鲁斯 卡尔算 法起效 的原因 

可以 证明， 克鲁 斯卡尔 算法可 为某给 定图生 成权最 小的生 成树。 设 G 是无 向连 通图。 简便 
起见， 如果 需要， 我们 会为某 些标号 加上一 些极小 的量， 使得所 有标号 都是不 同的， 而 且添加 
的 各极小 量的和 要小于 G 中任意 不同标 号之间 的差。 这样 一来， 带有新 标号的 G 就会 有唯 一的最 
小生 成树， 它将会 是带原 有权的 G 所有最 小生成 树中的 一棵。 

接着， 设61、 e2 、…、 &是 G 的所 有边， 而且是 按照标 号从小 到大的 顺序排 列的。 请 注意， 
这个次 序也是 克鲁斯 卡尔算 法处理 这些边 依照的 次序。 设足 是带有 用克鲁 斯卡尔 算法生 成的调 
整后标 号的图 G 对应 的生 成树， 并设 r 是 G 唯一的 最小生 成树。 

我 们要证 明足和 7 其 实是相 同的。 如果它 们是不 同的， 一 定至少 存在一 条边在 其中一 棵树而 
不 在另一 棵中。 设 ^ 是这一 系列边 中第一 条这样 的边， 也就 是说， ei 、…、 要么同 在足和 r 中， 
要么 都不在 中。 这里 有两种 情况， 取决于 &是在 [中 还是在 r 中。 我们 在每种 情况下 都能得 
出 矛盾， 因此就 能得出 e, 是不存 在的， 因此 足=7\ 而且 足 是 G 的最 小生 成树。 


贪婪 有时是 有用的 

克 鲁斯卡 尔算法 是贪婪 算法的 一个好 例子， 在贪婪 算法中 我们会 出一 系列的 决定， 每次 
都偶: 出当时 最佳的 选择。 这 些局部 的决定 是决定 哪条边 要被添 加到正 在成形 的生成 树中。 在各 
情 况下， 我 们都要 选择那 条标号 最小但 又不会 因为产 生环路 而破坏 “生 成树” 定义的 边。 通常， 
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局部最 优选择 的整体 效果不 是全局 上最适 合的。 然而， 在 克鲁斯 卡尔算 法的情 况中， 可 以证明 
结 果从全 局上讲 也是最 佳的， 也 就是一 棵权最 小的生 成树。 


情况 1。 边 e,. 在 r 中而 不在 足中。 如果克 鲁斯卡 尔算法 不接受 e,.， 那么 e, 肯 定与之 前为足 选择的 
边中 某路径 P 形成了 环路， 如图 9-24 所示。 因此， 组成 P 的边 都能在 61 、…、 ^中 找到。 不过， 
it 口 这些 边是一 致的， 也就 是说， 如果尸 的边在 足中， 那 么这些 边也在 r 中。 不 过因为 r 中含 
有 〜 种卩上^ 就在 r 中形 成了 环路， 这与 我们说 7 是生成 树的假 设是矛 盾的。 因此， ^在了 中而不 
在足中 是不可 能的。 


图 9-24 路径 P  ( 实线） 在 r 和尺 中， 边 e,. 只在 r 中 

情况 2。 边 e 在足中 而不在 r 中。 设 e 连接 了节点 w 和 V。 因为 r 是连 通的， 所以 在了中 节点 w 和 v 
之 间一定 存在某 条无环 路径， 假设 称其为 2。 因为 2 没有 用到边 e;， 所以 2 加上 e, 在图 G 中形 成了 
简单 环路。 这 里存在 两种子 情况， 具体取 决于& 的标 号是否 比路径 0 上 所有边 的标号 都大。 

(a)  边 e, 有 着最尚 的标 号。 那么 0 上 的所有 边都在 {ei, …， 中。 请 记住， 在 e, •之前 
的 所有边 都是一 样的， 所以 0 中所有 的边也 是足中 的边。 不过 e, 也在 足中， 这表示 i： 是一条 环路。 
因 此我们 排除了  q 的 标号比 0 中 任何边 的标号 都高的 可能。 

(b)  路径 0 上 的某边 / 的标 号比 ez. 的标 号高。 假设 / 连接 节点 w 和 X。 图 9-25 展 示了树 T7 中的这 
种 情况。 如 果将边 / 从 r 中 删除， 并 加上边 就不 会形成 环路， 因 为路径 2因_ /被删 除而中 断了。 
得 到的边 的集合 权要比 r 低， 因为 / 有着比 更高的 标号。 我 们声明 得到的 这些边 仍然连 通所有 
节点。 要知道 原因， 请注意 w 和 JC 仍 然是连 通的， 有 一条路 径沿着 2 从 w 到 W， 然后 沿着边 然 
后再沿 着路径 0 从 v 到 X。 因为 {w， X} 是唯 一一 条 被删除 的边， 如果它 的终点 仍然是 连通的 ，那 
么 显然所 有节点 都是连 通的。 因此， 边 的新集 合是生 成树， 而它的 存在与 r 是最 小生成 树的假 
设相 矛盾。 

现在 就已经 证明了 e,. 不 可能在 [中 而不在 r 中。 这样就 排除了 第二种 情况。 因为 e 不 可能在 r 
和 [中， 所以可 以得岀 结论， 其实就 是最小 生成树 r。 也就 是说， 克鲁斯 卡尔算 法总是 能找到 
最小生 成树。 
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o 


0 


o 


图 9-25 路径 2  ( 实线） 在 r 中， 我们可 以将边 e, 添加到 r 中并删 除边尸 


9.5.3 克鲁斯 卡尔算 法的运 行时间 

假设对 某一含 《 个节点 的图运 行克鲁 斯卡尔 算法。 就像 9.4 节 那样， 设 m 是节点 数与边 数的较 
大者， 但请 记住， 通常边 数是较 大者。 假 设该图 是用邻 接表表 示的， 这样就 可以在 的时间 
内找 到所有 的边。 

首先， 必 须用标 号为边 排序， 如果使 用了诸 如归并 排序这 样的高 效排序 算法， 就 要花上 
log  w) 的 时间。 接着要 考虑这 些边， 花上 (9  (w  log  «) 的时 间进行 所有的 合并与 寻找， 就像在 9.4 
节中讨 论过的 那样。 因 此看起 来克鲁 斯卡尔 算法的 总运行 时间是 (9  (w  (log  «+log  m))。 

不过， 要 注意到 m<«2， 因为 只存在 1)/2 个节 点对。 因此， logm  ^  21og«  , 这样一 
来 m(log «  +  log m)  <  3m log « 。 因 为在大 (9 表 达式中 常数因 子是可 以省略 掉的， 所 以可以 得岀结 
论： 克 鲁斯卡 尔算法 的运行 时间是 CKw  log  «)。 

9.5.4  习题 

(1)  如 果瓦西 阿瓦被 选为根 节点， 画岀 表示图 9-22 的树。 

(2)  使用 克鲁斯 卡尔算 法为边 和标号 都如图 9-21  (见 9.4 节 习题） 所示 的各分 支找到 最小生 成树。 

(3) ** 证明， 如果图 G 是有 n 个节 点的 无向连 通图， 而且 7 是 G 的生 成树， 则 7 有 《-1 条边。 提示： 我们 
需要对 《 进行 归纳。 难点在 于证明 T 一定 有某 个度为 1 的节点 V， 也就 是说， 謂 IJ 好只 有一条 边含节 
点 V。 考虑如 果对每 个节点 w 都至少 有两条 r 的边含 有〃 会发生 什么。 沿着 边进出 一系列 的节点 ，最 
终会找 到一条 环路。 因 为假设 r 是生 成树， 所以 它不可 能含有 环路， 这样 一来就 形成矛 盾了。 

(4) *  一旦我 们选定 了《-1 条边， 就 不需要 考虑将 更多的 边纳人 该生成 树了。 描述 克鲁斯 卡尔算 法的一 
个 变种， 它 不会为 所有边 排序， 但会 将它们 放人优 先级队 列中， 将边 标号的 相反数 作为其 优先级 
(也就 是最短 的边会 首先被 t/efcfcMax 选中） 。 证明， 如果生 成树可 以在前 m/log  w 条边 中找到 ，那 
么这一 版本的 克鲁斯 卡尔算 法就只 需要花 0  (m) 的 时间。 

(5)  * 假 设为图 G 找到 了最小 生成树 T， 然后向 G 添加 权为 w 的边 {m， v}。 在什么 情况下 r 仍是新 图的最 
小生 成树？ 

(6)  ** 无向图 G 的欧拉 回路是 起止点 为同一 节点而 且刚好 含有图 G 中每 条边 一次的 路径。 

(a)  证明， 当且仅 当每个 节点都 为偶数 度时， 无向连 通图含 有欧拉 回路。 

(b)  设 G 是有 m 条边而 且每个 节点都 为偶数 度的无 向图。 给 岀运行 时间是 0(m) 的为图 G 构建 欧拉回 


路的 算法。 
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9.6 深度优 先搜索 

我 们现在 要描述 一种对 有向图 而言很 实用的 图探索 方法。 在 5.4 节中我 们讨论 过树的 前序遍 
历 和后序 遍历， 其中从 根节点 开始， 递 归地探 索了访 问过的 每个节 点的子 节点。 我们几 乎可以 
将 同样的 思路应 用到任 意有向 图上。 ® 从任 意节点 出发， 可以 递归地 探索其 后继。 

不过， 必须 小心图 中存在 环路的 情况。 如 果存在 环路， 我们可 能会绕 着环路 永远地 递归调 
用探索 函数。 例如， 考虑图 9-26 中 的图。 从节点 a 开始， 我们 可能决 定接下 来探索 节点& 从办岀 
发 可能会 先探索 c， 然后从 c 岀发可 能要先 探索& 这样 就会导 致无限 递归， 反 复地探 索纟和 c。 其 
实， 我们选 择按照 什么次 序探索 ^ 和 c 的后继 是不重 要的。 要么会 困在其 他的环 路中， 要 么最终 
会无 限地从 纟探索 c 并从 c 探 索石。 


这一 问题有 个简单 的解决 方案： 在 访问节 点的过 程中为 其做上 标记， 并永不 再次访 问标记 
过的 节点。 这样 一来， 我们从 起始节 点起可 以到达 的任何 节点都 会被探 索到， 而 之前已 经访问 
的节 点不会 被再次 访问。 我们 将看到 这种探 索所花 的时间 是与被 探索的 弧的数 量成比 例的。 

这种搜 索算法 叫作深 度优先 搜索， 因 为我们 会尽可 能快地 行进到 离初始 节点尽 可能远 （尽 
可能 “ 深”） 的 节点。 这可 以通过 一种简 单的数 据结构 实现。 这里要 再次假 设使用 NODE 类型为 
节点 命名， 而 且该类 型就是 int 类型。 我 们用邻 接表表 示弧。 因为需 要为每 个节点 添加一 个“标 
记”， 其 值是从 VISITED 和 UNVISITED 中二 选一， 所以 要创建 一个结 构体数 组来表 示该图 。这 
些 结构体 要同时 包括这 里所说 的标记 以及邻 接表的 表头。 

enum  MARKTYPE  {VISITED,  UNVISITED}; 

typedef  struct  { 

enum  MARKTYPE  mark; 

LIST  successors; 

>  GRAPH [MAX] ; 

其中 LIST 为邻 接表， 是按照 以下习 惯方式 定义的 

typedef  struct  CELL  *LIST ; 

struct  CELL  { 

NODE  nodeName; 

LIST  next ; 

>； 


①请 注意， 如果 将树中 的弧看 作存在 从父节 点到子 节点的 方向， 树 就可以 被当作 有向图 的一个 特例。 其实， 树还 
总是无 环图。 
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void  dfs(_E  u,  GRAPH  G) 

^  LIST  D-  沿着11 对应 的邻接 表下行 */ 

NODE  v-  7* 由 P 指向 的单元 中存放 的节点 *〆 

G[u] .mark  =  VISITED; 
p  =  G [u] . successors ; 
while  (p  !=  NULL)  { 
v  =  p->nodeName ; 
if  (G[v] .mark  ==  UNVISITED) 
df s(v,  G) ; 
p  =  p->next ; 


一 幵始要 将所有 的节点 标记为 UNVISITED。 图 9-27 所 示的递 归函数 dfs  (u,  G) 会处 理某幅 
在外部 定义的 GRAPH 类 型的图 G 中的 节点 W。 

在第 (1) 行我 们将 4 示记为 VISITED, 这样 就不用 再次对 它调用 dfS 了。 第 (2) 行会初 始化指 
针 ；?， 它指 向节点 W 的邻 接表的 第一个 单元。 第 (3) 行至第 (7) 行的循 环会带 ；?沿 着邻接 表向下 行进， 
依 次考虑 W 的各 后继 V。 


图 9-27 递归 的深度 优先搜 索函数 

第 (4) 行会将 v 置为节 点《  “ 当前” 的 后继。 在第 (5) 行， 我们 会测试 v 之前 是否已 经被访 问过。 
如 果是， 就 跳过第 (6) 行的递 归调用 并在第 (7) 行中将 p 移动 到邻 接表的 下一个 单元。 不过， 如果 v 
从 未被访 问过， 就 要在第 (6) 行从 节点 v 开始 进行深 度优先 搜索。 最后， 完成对 dfs  (v,G) 的 调用。 
然后 执行第 (7) 行， 让;? 沿着 w 的邻 接表向 下移动 并进行 循环。 

♦ 示例 9.18 

假设 G 是图 9-26 所示 的图， 而且为 了简化 问题， 假 设各邻 接表中 的节点 都是按 照字母 表顺序 
排歹 U 的。 一 开始， 所 有节点 都会被 标记上 UNVI  SITED。 调用 dfs  (a),  ® 节点 a 在第 (1) 行会 被标 
记为 VISITED, 而且我 们在第 (2) 行 要初始 化指针 ；?， 它指向 a 的邻 接表的 第一个 单元。 在第 (4) 
行 V 被置 为心 因为 6 是第 一个单 元中的 节点。 由于办 当前处 于未被 访问的 状态， 所以第 (5) 行的测 
试会 成功， 并且 要在第 (6) 行调用 dfs  (b)。 

现在， 要以 办为参 数开始 一次对 dfs 的新 调用， 而 w  =  a 的旧 调用 处于休 眠状态 而并未 终止。 
因为 c 是 6 的邻接 表中的 第一个 节点， 所 以在第 (4) 行 c 成了 v 的值。 节点 c 是未 访问 过的， 所 以我们 
在第 (5) 行 会成功 并在第 (6) 行调用 dfs  (c) 。 

现在激 活了对 dfs 的 第三次 调用， 而且 要开始 dfs  (C)， 我们将 C 标记为 VISITED， 并在第 (4) 行 
将 v 置为仏 因为 6 是 c 的邻接 表中第 一个也 是唯一 的一个 节点。 不过， 办已经 在对 dfs  (b) 的调 用的第 
(1) 行中被 标记为 VISITED 了， 所以 我们要 跳过第 (6) 行， 并在第 (7) 行将 P 沿着 C 的邻 接表向 下移动 。因 
为 C 没有 更多后 继了， 这 样;? 就成了 NULL, 所以第 (3) 行的 测试 就会 失败， 对 dfs  (C) 的调 用就完 成了。 

现在又 回到对 dfs  (b) 的 调用。 指针 在第 (7) 行被 前移， 现在 它指向 6 的邻接 表的第 二个单 
元， 这个单 元存放 着节点 I 我 们在第 (4) 行将 v 置为 A 因为 d 是未 被访问 过的， 所 以在第 (6) 行要 
调用 dfs  (d) 。 

在执行 dfs  (d) 时， 我 们会将 4 示记为 VISITED。 那么 v 首先会 被置为 c。 但 因为邊 被访问 过的， 


① 在接下 来的内 容中， 我们 将省略 dfs 的 第二个 参数， 因为 它永远 都是图 G。 


\ — /  \ — /  \ ― /  \ — /  \ — / 、 — /  \ — / 

12  3  4  5  6  7 

/ - \  / - \  / - \  / - N  / - N  / - 、 / - 、 
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因此 下一次 进行循 环时会 有v=e。 这会 引发对 dfs(e) 的 调用。 节点 e 只有 dt 么一个 后继， 所 以在将 
e 标记为 VISITED 后， dfs(e) 就会 返回到 df s  ( d) 。 接 下来在 df s  ( d) 的第 (4) 行进行 v  =  勺赋值 ，并 
调用 dfs(f)。 在把麻 记为 VISITED 后， 我们会 发爾也 只有遂 么一个 后继， 而〔 又是 被访问 过的。 

现 在就完 成了对 dfs (f ) 的 调用。 因为是 派) 最后一 后继， 所以 我们完 成了对 dfs (d) 的 调用， 
而且 由于礎 6 的最 后一个 后继， 这样 也就完 成了对 dfs  (b〉 的调 用。 这样就 把我们 带回了 dfs  (a) 。 
节点 还有 另一 个后继 A 不过该 节点是 被访问 过的， 所 以我们 也就完 成了对 dfs  (a) 的调 用。 

图 9-28 总结了 dfs 对图 9-26 所 示图的 操作。 我们展 示了对 dfs 进行 调用的 情况， 并在 右侧给 
出了 当前处 于活跃 状态的 调用。 我们还 表示了 每一步 执行的 活动， 并展示 了与当 前活跃 的调用 
相关 联的局 部变量 V 的值， 或者 是给岀 p  =  NULL, 表 示没有 相应的 Vll。 


dfs (a) 
v  —  b 

调用 dfs  (b) 

dfs (a) 
v  =  b 

df s(b) 

v  =  c 

调用 dfs  (c) 

dfs (a) 

v  =  b 

df s(b) 

v  —  c 

df  s(c) 

v  —  b 

跳过， b 已经被 访问过 

dfs (a) 
v  —  b 

df  s  (b) 

v  —  c 

df  s(c) 
p  =NULL 

返回 

dfs (a) 
v  =  b 

df  s  (b) 

v  =  d 

调用 dfs  (d) 

dfs (a) 
v  =  b 

df  s  (b) 

v  =  d 

df  s  (d) 

V  =  c 

跳过， c 已经被 访问过 

dfs (a) 
v  =  b 

df  s  (b) 
v  —  d 

df s(d) 

v  —  e 

调用 dfs  (e) 

dfs (a) 
v  =  b 

df  s  (b) 

v  =  d 

df  s  (d) 

v  =  e 

df  s  (e) 

v  =  c 

跳过， C 已经被 访问过 

dfs (a) 

v  =  b 

df s(b) 

v  —  d 

df s(d) 

v  =  e 

df  s(e) 
p  =NULL 

返回 

df s(a) 
v  —  b 

df s(b) 

v  —  d 

df s(d) 

v 二  f 

调用 dfs  (  f ) 

dfs (a) 
v  =  b 

df  s  (b) 

v  =  d 

df  s  (d) 

u  =  / 

df  s  (f  ) 

v  =  c 

跳过， C 已经被 访问过 

dfs (a) 

v  =  b 

df  s(b) 

v  =  d 

df s(d) 

V  =  f 

dfs ⑴ 
p  =NULL 

返回 

dfs (a) 
v  —  b 

df  s  (b) 

v  —  d 

df  s  (d) 
p  =NULL 

返回 

dfs (a) 
v  =  b 

df s(b) 
p  =NULL 

返回 

dfs (a) 

v  =  d 

跳过， d 已经被 访问过 

df s(a) 
p  二 NULL 

返回 

图 9-28 在深 度优先 搜索期 间所执 行调用 的记录 
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9.6.1 构建深 度优先 搜索树 

因为我 们标记 了节点 以防访 问它们 两次， 这 样一来 在探索 图的过 程中图 就像树 那样了 。其 
实， 也可以 绘出一 棵树， 其 父子节 点之间 的边就 是被搜 索的图 G 中的某 些弧。 如果我 们在对 
dfs(u) 的调 用中， 而 且它会 带来对 df S  (V〉 的 调用， 那么我 们就让 V 成为 W 在该树 中的子 节点。 

W 的子节 点是按 照对这 些子节 点调用 的次 序从左 向右出 现的。 而第一 次6诉 调用 所针对 的节点 
就是该 树的根 节点。 不会对 任何节 点调用 两次， 因 为在第 一次调 用后这 些节点 就会被 标记为 
VISITED。 因此， 这样定 义的结 构真是 棵树。 我们可 以称这 样的树 是某给 定图的 深度优 先搜索 
树 （ depth-first  search  tree  )。 

♦ 示例 9.19 

图 9-29 所示 的 树展示 了图 9-28 总结 的对图 9-26 所 示的图 的探 索过程 。我 们把代 表父子 关系的 
树向弧 （tree  arc) 表示为 实线， 图中的 其他弧 被表示 为虚线 箭头。 这里我 们应该 忽略节 点标号 
的 数字。 


图 9-29 图 9-26 所示 的图的 一种可 能的深 度优先 搜索树 

9.6.2 深度 优先搜 索树弧 的分类 

当我 们为图 G 构建 深度优 先搜索 树时， 可以把 G 中的 弧分为 4 组。 应 该不难 理解， 这 种分类 
是 就某棵 特定的 深度搜 索树而 言的， 或 者说， 是针 对各邻 接表中 节点的 某种特 定次序 （形 成对 
G 的一 次特定 探索） 而 言的。 这 4 类 弧分别 如下。 

(1)  树 向弧， 满足 dfs  (v) 被 dfs  (u) 调 用的弧 w  。 

(2)  前向弧 （ forward  arc  )， 满足 v 是 w 的真 子孙但 又不是 w 的子节 点的弧 w  - >  v 。 例如， 在图 
9-29 中， 弧 —  ^ 就是唯 一 '的前 向弧。 树 向弧都 不是前 向弧。 

(3)  后向弧 （ backward  arc  ), 满足 v 是 w 在 该树中 的祖先 （ w  =  v 也是可 以的） 的弧 w  4  v 。 图 
9-29 中， 弧 C  —  是唯 一的后 向弧。 任何 自环， 也就 是节点 到其自 身的弧 都被分 类为后 向弧。 
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(4) 横向弧 （ cross  arc  )， 满足 v 既不是 w 的祖 先也不 是其子 孙的弧 w  4  v 。 图 9-29 中有 3 条这样 
白勺 弓瓜： d  ― 、 c 、 e  — ^  c  f  ― ^  c 。 

在图 9-29 中， 每 条横向 弧都是 从右至 左的。 这种情 况并非 巧合。 假设 在某深 度优先 搜索树 
中 有一条 横向弧 w  — v 满足 w 在 v 的左 侧。 考 虑一下 在调用 dfs(u) 期间 会发生 什么。 到 完成对 
dfs(u) 的调用 之时， 我 们应该 已经考 虑过从 w 到 v 的弧 了。 如果 v 尚未被 放置到 树中， 那 么它就 
会成为 w 在该树 中的子 节点。 因为这 种情况 显然不 会发生 （这样 v 就不会 在《 的右侧 了）， 所以在 
考虑弧 时， V 肯 定已经 在该树 中了。 


不过， 图 9-30 展 示了当 dfs(u) 处 于活动 状态时 存在的 树的一 部分。 因 为子节 点会按 照从左 
至 右的次 序添加 进来， 所以 迄今为 止节点 《的 真祖先 没有子 节点在 w 的右 侧。 因此， v 只可能 是1/ 
的 祖先， W 的 子孙， 或 者是在 W 左侧 的某个 位置。 因此， 如果 是横 向弧， v 就一 定是在 w 的 
左侧， 而不可 能像我 们最初 假设的 那样在 w 的右 侧。 

9.6.3 深度 优先搜 索森林 

在示例 9.19 中， 我 们特别 幸运， 从节点 a 开始， 就能够 到达图 9-26 所示图 的全部 节点。 但假 
设我 们从其 他节点 开始， 就 可能没 法到达 a  a 就 不会岀 现在深 度优先 树中。 因此， 探索 图的一 
般方式 是构建 一系列 的树。 我 们从某 个节点 w 开始 并调用 dfs  (u) 。 如果还 有节点 未被访 问过， 
就再选 择一个 节点， 比 方说是 V， 并调用 dfs(v)。 只 要还有 节点未 被分配 到任一 树中， 就继续 
重复该 过程。 

在 所有节 点都被 分配到 一棵树 中后， 我 们就按 照构建 这些树 的先后 次序， 把构建 出的树 
从左 到右列 岀来。 这一列 树就叫 作深度 优先搜 索森林 （ depth-first  search  forest  )。 利用 之前定 
义的 NODE 和 GRAPH 数据 类型， 可以 通过图 9-31 所示的 函数， 从所需 的那么 多根节 点开始 搜索， 
对 完全从 外部定 义的图 G 进行 探索。 这里我 们假设 NODE 类型为 int 类型， 而且 是 G 中的节 
点数。 
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void  dfsForest (GRAPH  G) ; 

{ 

NODE  n; 

for  (u  =  0;  u  <  MAX;  u++) 

G[u] .mark  =  UNVISITED; 
for  (u  =  0;  u  <  MAX;  u++) 

if  (G[u] .mark  ==  UNVISITED) 
df s(u,  G) ; 

> 


图 9-31 通过 探索所 需的那 么多树 对图进 行探索 

在第 (1) 行和第 (2) 行中， 我们会 把所有 节点初 始化为 UNVISITED。 然后， 在第 (3) 行到第 (5) 
行的循 环中， 要依 次考虑 各节点 w。 在考虑 w 时， 如 果该节 点尚未 被添加 到任何 树中， 那 么在进 
行第 (4) 行 的测试 时它仍 然会被 标记为 未被访 问过。 在这 样的情 况下， 我们就 会在第 (5) 行调用 
dfs(u,G), 并 探索以 w 为根 节点 的深度 优先搜 索树。 特 别要说 的是， 第一 个节点 总是会 成为树 
的根 节点。 不过， 如果在 执行第 (4) 行的 测试时 W 已经被 添加到 树中， 那么 w 就会被 标记为 
VISITED, 因 此不会 创建以 W 为根 节点 的树。 

♦ 示例 9.20 

假设 将上述 算法应 用到图 9-26 所示的 图上， 但是设 d 是名 称为 0 的 节点， 也就 是说， d 是该深 
度搜 索生成 森林中 树的第 一个根 节点。 调用 dfs(d)， 这会 构建图 9-32 中 的第一 棵树。 现 在除了 a 
之外的 所有节 点都已 经被访 问过。 当 w 在图 9-31 第 (3) 行到第 (5) 行的循 环中成 为各节 点时， 除了 w 
=^时 之外第 (4) 行的测 试都会 失败。 然后， 我 们会创 建如图 9-32 所示 的单节 点第二 棵树。 请 注意， 
在调用 dfs  (a) 时， a 的两 个后继 都带有 VISITED 标记， 因 此我们 不再从 dfs  (a〉 进行任 何递归 
调用。 


当把 图中的 节点表 示为深 度优先 搜索森 林时， 前 向弧、 后向弧 与树向 弧的概 念还像 之前那 
样。 不过， 横 向弧的 概念必 须扩展 到包含 那些从 一棵树 到其左 侧的树 的弧。 这种 横向弧 的例子 
包括图 9-32 中的 a  4 6 和 a  4  d 。 

横 向弧总 是从右 至左的 这一规 则继续 成立。 原因 还是一 样的。 如果存 在从一 棵树到 其右侧 
树的 横向弧 M4V， 那么考 虑一下 当调用 dfs  (u) 时 会发生 什么。 因为 v 没有 被添 加到当 时正在 
形成的 树中， 所 以它肯 定已经 在某棵 树中。 但是 w 右侧的 树尚未 创建， 因此 v 不可 能是这 些树的 
一 部分。 
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尽善 尽美的 深度优 先搜索 

无论节 点 数和弧 数之间 存在什 么 的关系 ，对 图的 深度优 先探索 需要 的时间 是与 图的“ 大小” 
(也 就是 节点数 与弧数 之和） 成正 比的。 因此， 深度 优先搜 索与其 他任意 “ 查看” 图的 算法在 
速 度上只 有常数 因子的 差异。 


9.6.4 深 度优先 搜索算 法的运 行时间 

设 G 是有 《 个节点 的图， 并设 m 是节 点数与 弧数之 间的较 大者。 图 9-31 所示的 dfsForest 就 
要花 0(m) 的 时间。 这一事 实的证 明需要 一点小 花招。 在 计算对 dfs(u) 的 调用所 花的时 间时， 
我们不 会将图 9-27 第 (6) 行中对 dfs 的递 归调用 所花的 时间计 算在内 ，就像 3.9 节中所 建议的 那样。 
不过， 不难 看岀要 为每个 w 值调用 dfu(u) —次。 因此， 如果 将每次 调用的 开销加 起来， 除掉其 
递归 调用， 就 能得到 将所有 调用视 作一个 整体所 花的总 时间。 

请 注意， 除 掉在对 dfs 的递归 调用中 所花的 时间， 图 9-27 中第 (3) 行到第 ⑺行的 while 循环 
所花的 时间是 可以变 化的， 因 为节点 w 的后继 数量可 能是从 0 到 《 的任一 数字。 假如设 是节点 w 
的 岀度， 也就是 《 的 后继的 数量。 那么 在执行 dfs  (u) 期间 进行该 循环的 次数就 肯定是 m„。 在评 
估 dfs  (u) 的 运行时 间时， 并不 会把第 (6) 行执行 dfs  (v,G) 的时 间计算 在内， 而除 该调用 之外， 
整个 循环体 只要花 0(1) 的 时间。 因此， 除 去在递 归调用 上花的 时间， 第 (3) 行到第 (7) 行的 循环花 
的总时 间就是 0  (l+m„)， 这个 附加的 1 是必 要的， 因为 可能为 0, 在这种 情况下 我们仍 然需要 
为第 (3) 行的测 试花上 0(1) 的时 间。 因为第 (1) 行和第 (2) 行的 dfs 要花 0(1) 的时 间， 所以可 以得出 
结论， 忽 略递归 调用， dfs(u) 要花 0(l+m„) 的时 间完成 调用。 

现 在可以 看到， 在运行 dfsForest 期间， 刚好要 为每个 m 值调用 dfs  (U) —次。 因此， 花在 
所有 这些调 用上的 总时间 是花在 每次调 用上的 时间之 和的大 0, 也就是 0(Z(((l+m„))。 但是 
V  m 就是图 中弧的 数量， 也就是 最多为 m， ® 因为 每条弧 都是都 某一个 节点发 岀的。 节 点数为 

u 

n, 所以 1(;1 就是 《。 由于 因此 所有对 dfs 的 调用花 的总时 间就是 0 (m)。 

最后， 必 须考虑 dfsForest 花的 时间。 图 9-31 所示 的该程 序由各 要迭代 《次 的两个 循环组 
成。 不难 看出， 除去对 dfs 的 调用， 循环体 所花的 时间是 0(1)， 因此 这些循 环的开 销都是 0 ⑻。 
这 一时间 会被对 dfs 的调用 所花的 0  (m) 时间 主导。 因为我 们已经 弄清了 dfs 调用 所花的 时间， 
所以可 以得到 dfsForest ， 再 加上其 所有对 dfs 的 调用， 要花 0(w) 的 时间。 

9.6.5 有向 图的后 序遍历 

一旦有 了深度 优先搜 索树， 就 可以按 后序为 其节点 编号。 不过， 还有 一种在 搜索期 间进行 
编号 的简单 方法。 只要把 为节点 W 加上编 号当作 dfs  (U) 完成前 我们要 做的最 后一件 事即可 。然 
后， 在节 点的所 有子节 点被编 号后， 它 自己就 会被编 上号， 正好 是按照 后序编 号的。 

♦ 示例 9.21 

图 9-29 所示 的树， 也 就是我 们对图 9-26 中的 图进行 深度优 先搜索 所建立 的树， 有着 后序编 
号 的节点 标号。 如果 查看图 9-28 的 过程， 就 会发现 最先要 返回的 调用是 dfs  (c) ， 而且节 点^会 


① 其实， m„ 的和 刚好是 m, 除 非节点 数大于 弧数。 回想 一下， m 是 节点数 与弧数 间的较 大者。 
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int  k;  /* 为 已访问 过的节 点计数 */ 

void  dfs(NDDE  u,  GRAPH  G) 

LIST  p;  /* 指向 u 的邻 接表 的单元 */ 

NODE  v;  /* 由 p 指向 的单元 中存放 的节点 V 

G[u] .mark  =  VISITED; 
p  =  G  [u] . successors ; 
while  (p  !=  NULL)  { 
v  =  p->nodeName ; 
if  (G[v] .mark  ==  UNVISITED) 
df s(v,  G) ; 
p  =  p->next ; 

} 

++k; 

G [u] • post order  =  k; 

} 

void  dfsForest (GRAPH  G) 

{ 

NODE  u; 
k  =  0; 

for  (u  =  0;  u  <  MAX;  u++) 

G[u] .mark  =  UNVISITED; 
for  (u  =  0;  u  <  MAX;  u++) 

if  (G[u] .mark  ==  UNVISITED) 
df s(u,  G) ; 

> 


被编为 1 号。 然 后我们 会访问 A 接着是 e, 并从对 e 的调用 返回。 因此， e 的 编号是 2。 同样， 我 
们 会访问 / 并从其 返回， 它会 被编为 3 号。 至此， 已经完 成了对 d 的 调用， 它 会得到 4 这个 编号。 
这 样就完 成了对 dfs(b) 的 调用， 因此 6 的编 号就是 5。 最后， 最 开始对 a 的调用 返回， 给了 a 编号 
6。 请 注意， 这 一次序 刚好就 是我们 以后序 遍历该 树会得 到的。 

我们 可以对 目前所 编写的 深度优 先算法 进行一 些简单 改动， 从而为 节点指 定后序 编号， 这 
些改 动如图 9-33 所 总结。 


图 9-33 以后序 为有向 图的节 点编号 的例程 

(1)  在 GRAPH 类 型中， 需 要为每 个节点 增加一 个名为 postorder 的 字段。 对图 G 而言， 我们 
要 将节点 w 的后 序编 号放在 G[u]  .postorder 中。 这 一赋值 是在图 9-33 的第 (9) 行完 成的。 

(2)  我们 使用全 局变量 k 按后序 为节点 计数。 这一变 量是在 dfs 和 dfsForest 的外 部定义 
的。 正 如在图 9-33 中 所见， 我们在 dfsForest 的第 (10) 行将政 I 始化为 0， 并刚好 在赋值 后序编 
号 之前， 在 dfs 中的第 (8) 行将 縫增 1。 

请 注意， 这样 一来， 当深度 优先搜 索森林 中不止 有一棵 树时， 第一棵 树就会 得到最 低的编 
号， 而 紧接着 的那棵 树就会 按顺序 得到接 下来的 编号， 以此 类推。 例如， 在图 9-32 中， a 会得到 
后 序编号 6。 

9.6.6 后序编 号的特 殊属性 

横向弧 不能从 左向右 说明了 与后序 编号和 图的深 度优先 表示中 4 种弧 相关的 一些有 趣而实 
用的 信息。 在图 9-34a 中， 我们 看到图 的深度 优先表 示中有 w、 v 和 w3 个 节点。 节点 v 和 ^是^/ 的子 
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孙， 而且 w 在 v 的右 侧。 图 9-34b 展 示了分 别为这 3 个节 点调用 dfs 各 自的活 动持续 时间。 


(a) 深度 优先树 中的三 个节点 


v 的时间  w 的时间 

M 的时间 


(b) 它们对 dfs 调 用的活 动区间 


图 9-34 树 中位置 间的关 系和调 用的持 续时间 

我们 可以得 出一些 观点。 首先， 对子 孙节点 （比如 V) 进 行的对 dfs 的 调用， 只在对 祖先节 
点 （比如 W) 的 调用期 间的某 个子时 间区间 内是活 动的。 特别 要指岀 的是， 对 dfs  (V) 的 调用会 
在对 dfs  (U〉 的调 用之前 终止。 因此， 只要 1是1/ 的真 子孙， v 的后序 编号肯 定要比 《的 后序编 号小。 

其次， 如果 w 在 v 的 右侧， 那么对 dfs  (w) 的调 用必须 等到对 dfs  (v) 的 调用终 止后才 会开始 。因 
此， 只要 v 在 w 的左 侧， v 的后 序编号 就要比 w 的后 序编 号小。 虽然图 9-34 中没 有表示 出来， 但即便 v 
和 w 在深度 优先搜 索森林 的不同 树中， 只要 v 所在 的树在 w 所在的 树的左 侧， 同样 的结论 也是成 立的。 
我 们现在 可以为 每条弧 u^v 考虑 w 和 v 后序 编号之 间的关 系了。 

(1)  如果 w->v 是树向 弧或前 向弧， S 卩么 v 是 w 的子 孙， 所以 v 按后序 要先于 w。 

(2)  如果 w  —  v 是横 向弧， 那么我 们知道 v 在 w 的左 侧， 因此 按后序 v 还是 先于 I 

(3)  如果 是后向 弧而且 ， 那么 v 是 w 的真 祖先， 因此 按后序 v 在 w 之后。 不过， 对后 
向 弧而言 v  =  w 是有可 能的， 因 为自环 也是后 向弧。 因此， 一般 来说， 对 后向弧 而言 ，我 
们知道 V 的后 序编 号是不 会小于 W 的后 序编 号的。 

总之， 我们 看到， 弧头 部按后 序是要 先于尾 部的， 除非该 弧是后 向弧， 在弧 是后向 弧的情 
况中， 尾部按 后序是 不会在 头部之 后的。 因此， 只要找 到那些 尾部按 后序不 大于头 部的弧 ，就 
可 以 认定它 们是后 向弧。 我们在 9.7 节 中 将看到 这 一概念 的若干 应用。 

9.6.7  习题 

(1)  为图 9-5 中的树 （见 9.2 节的 习题） 给 岀两棵 从节点 a 岀发的 深度 优先搜 索树。 给岀 从节点 J 出现的 
深度 优先搜 索树。 

(2) * 不 管从图 9-5 中的哪 个节点 开始， 我 们最后 都只得 到深度 优先搜 索森林 中的一 棵树。 简要 解释对 
这幅 特定的 图为什 么一定 是这种 情况。 
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(3)  对 9.6 节习题 (1) 中的各 棵树， 指 岀哪些 弧是树 向弧、 前 向弧、 后向 弧和横 向弧。 

(4)  对 9. 6 节习题 (1) 中的各 棵树， 给 岀节点 的后序 编号。 

(5) * 考虑含 a、 6、 c 这 3 个节 点以及 a  —  6 和 这两条 弧 的图。 为这幅 图给岀 所有可 能的深 度优先 
搜索 森林， 为 每棵树 考虑所 有可能 的起始 节点。 每个 森林的 节点后 序编号 各是怎 样的？ 

(6) * 考虑 把习题 (5) 的图 一般化 为具有 岣 、 a2 、…、 这《 个节点 和巧 、…、 an_'  a„ 
这 些弧。 通过对 n 的完 全归纳 证明， 该 图具有 V1 种 不同的 深度优 先搜索 森林。 提示： 记住对 /  >  0 
有 1+1+2+4+8+ … +2;_=2i+1 是 能帮上 忙的。 

(7) *假 设从图 G 开始， 并为 G 添加 一个 新节点 X， 它是原 来的图 G 中所有 节点的 前导。 如果 从节点 x 开 
始 对新图 运行图 9-31 中的 dfsForest， 就只 得到一 棵树。 如果 接着将 x 从该 树中 删除， 就 可以得 
到若干 棵树。 这些树 与原图 G 的深 度优先 搜索森 林之间 有什么 联系？ 

(8)  ** 假设 有一幅 有向图 G， 我 们已经 通过图 9-31 所示 的算法 从这幅 有向图 的表示 构建了 深度优 先生成 
森林 F。 现 在将弧 添 加到图 G 中形 成新图 //, 除 了节点 v 出现 在节点 M 相应邻 接表中 的某个 位置, 
图 丑 的表 示与图 G 的表示 如岀一 辙。 如果 现在对 // 的这 种表示 运行图 9-31 所示的 算法， 在什么 条件下 
会 构建岀 相同的 深度优 先森林 F? 也就 是说， H 的树向 弧什么 时候会 刚好与 G 的树 向弧 相同？ 
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在本 节中， 我们会 看到如 何利用 深度优 先搜索 快速解 决一些 问题。 就 像之前 那样， 这里也 
是用 《 表示 图的节 点数， 并用 m 表示 节点数 与弧数 间的较 大者， 特别 要指岀 的是， 假设 总 
是成 立的。 这里介 绍的算 法对用 邻接表 表示的 图来说 都要花 0  (m) 的 时间。 第一个 算法可 以确定 
有 向图是 否为无 环的。 然后对 那些无 环图， 我们 会看到 如何找 岀其节 点的拓 扑排序 （拓扑 排序在 
7.10 节讨 论过， 我 们会找 个恰当 的时机 回顾一 下其定 义)。 我 们还要 展示如 何计算 图的传 递闭包 
( 概念 还是见 7.10 节）， 以及如 何比用 9.4 中给 岀的算 法更快 地找到 无向图 的连通 分支。 

9.7.1 有向图 中环路 的寻找 

在对 有向图 G 进行 深度优 先搜索 期间， 可以在 0(m) 的时间 内为所 有节点 指定后 序编号 。回 
想一下 9.6 节的 内容， 我们发 现尾部 按后序 小于等 于其头 部的弧 只有后 向弧。 只要 某图存 在后向 
弧 w4v， 其中 v 的后 序编号 不小于 w 的后序 编号， 该 图中就 一 '定 存在 环路， 如图 9-35 所 7K。 这条 
环路 是由从 W 到 V 的弧 以及 树中从 V 到其 子孙 W 的路 径组 成的。 


图 9-35 每条后 向弧都 可以与 树向弧 一起构 成环路 
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BOOLEAN  testAcyclic (GRAPH  G) 

{ 

NODE  u,  v;  /*  u 会行 经所有 的节点 */ 

LIST  p;  /*  p 指向与 u 对应 的邻 接表中 的各个 单元， 
v 是该邻 接表中 的节点 V 

df sForest (G) ; 

for  (u  =  0;  u  <  MAX ;  n++)  { 
p  =  G[u] .successors; 
while  (p  !=  NULL)  { 
v  =  p->nodeName ; 

if  (G [u] .postorder  <=  G [v] .postorder) 
return  FALSE; 
p  =  p - >next ; 

} 

} 

return  TRUE; 


这 个命题 反过来 也是成 立的， 也就 是说， 如果图 中存在 环路， 那么 就肯定 存在后 向弧。 要 
知道 原因， 先假设 存在某 环路， 比方说 … 并设对 z_  =  l、 2、 …、 t 节点 
的后序 编号为 A。 如果 1 ， 也就 是说， 环 路为一 条弧， 那 么在图 G 的任意 深度优 先表示 中 ％  4  % 
都肯 定是后 向弧。 

如果 &>1， 假设 ％4乂， v2->v3, 等等， 直到 Vy  4  K 这 些弧都 不是后 向弧。 那么 每条弧 
的头部 按后序 都先于 其尾部 ，而且 后序编 号;? W •、凡 形 成了递 减序列 。特 别要说 的是， Pk<Pl  o 
然后 考虑完 成该环 路的弧 4  。 其尾部 的后序 编号为 要小 于其头 部的后 序编号 &， 所以 

这条 弧是后 向弧。 这就 证明了 在环路 中肯定 存在后 向弧。 

这样 一来， 在计算 了所有 节点的 后序编 号后， 只要 检查所 有弧， 看看 有没有 弧的尾 部按后 
序小于 等于其 头部。 如 果有， 我 们就找 到了后 向弧， 而且该 图是有 环图。 如果没 有这样 的弧， 
该图 就是无 环图。 图 9-36 展示 了测试 外部定 义的图 G 是否 为无 环图的 函数， 它所使 用的表 示图的 
数据 结构与 9.6 节中 描述的 相同。 它还利 用了图 9-33 中 定义的 dfsForest 函 数计算 G 中节 点的后 
序 编号。 


图 9-36 确定图 G 是否 无环 的函数 

在第 (1) 行调用 dfsForest 计算后 序编号 之后， 我们 会在第 (2) 行到第 (8) 行的 循环中 检查各 
节点 I 指 针;? 会沿着 w 对应 的邻接 表向下 行进， 而 且在第 (5) 行， v 会依 次成为 w 的各 个后继 。如 
果在第 (6) 行发现 W 按后 序等于 或先于 V， 就 找到了 后向弧 并 在第⑺ 行返回 FALSE。 如果 
没有找 到这样 的弧， 就在第 (9) 行返回 TRUE。 

9.7.2 无环测 试的运 行时间 

和之前 一样， 设《 是图 G 中节 点的 数量， 并设 m 是节 点数与 弧数之 间的较 大者。 我们 已经知 
道在图 9-36 的第 (1) 行中对 dfsForest 的调 用要花 (9  (w) 的时 间。 而第 (5) 到第 (8) 行是 while 循环 
的循 环体， 显 然要花 0(1) 的 时间。 要得到 while 循环 本身运 行时间 的良好 边界， 就必须 用到我 
们在 9.6 节中为 深度优 先搜索 的时间 确定边 界时用 到的小 诀窍。 设/^ 是节点 w 的 岀度， 那么第 (4) 
行到第 (8) 行的 循环就 要进行 次。 因此， 第 (4) 行到第 (8) 行 所花的 时间是 0(l+m„)。 
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第 (3) 行 只要花 0(1) 的 时间， 因此第 (2) 行到第 ⑻行的 for 循环 所花的 时间是 0(X((l  +  mJ)。 
正如在 9.6 节 中验证 过的， 这些 1 的和是 (9 ⑻， 讲„的 和则是 w。 由于 所以第 (2) 到第 (8) 行 
的 for 循环的 运行时 间就是 0  (m)。 正 如深度 优先搜 索本身 那样， 检 测环路 的时间 与查看 整幅图 
所 花的时 间也只 有常数 因子的 差别。 


9.7.3 拓 扑排序 


假设我 们知道 有向图 G 是无 环的。 就像 对任意 图那样 ，可 以为 G 找到 一个 深度优 先搜索 森林， 
并为 G 的节 点确 定后序 编号。 假设 (v:， v2, …， v„) 是图 G 的节 点按 后序反 向排列 的表， 也 就是说 
Vi 是后序 编号为 《的 节点， V2 的编 号为 《-1， 而且 一 '般 而言， V, •是 后序 编号为 《-/+1 的 节点。 

该 表中节 点的次 序具有 这样的 属性， G 中所 有弧都 是按照 该次序 向前行 进的。 要知道 原因， 
假设 中 的弧。 因为 G 是无 环图， 所 以其中 肯定不 存在后 向弧。 因此， 对 每条弧 而言， 
其头 部按后 序都是 先于尾 部的。 也就 是说， Vy 按后序 要先于 V,。 不过 表是与 后序反 向的， 所以在 
表中 vz 要先于 v7。 也就 是说， 按照 表的次 序每条 弧的尾 部都要 先于其 头部。 

具有图 中每条 弧的尾 部都先 于头部 这种属 性的图 G 中， 节点的 次序叫 作拓扑 次序， 而为这 
些节 点找到 这一次 序的过 程就叫 作拓扑 排序。 只有无 环图才 有拓扑 次序， 而且正 如我们 已经看 
到的， 通过深 度优先 搜索， 可以在 0(m) 的时间 内为无 环图生 成拓扑 次序， 其中 m 是节点 数和弧 
数之 间的较 大者。 如果 要为某 节点给 定后序 编号， 也就 是要完 成对该 节点的 dfs 调用， 我们会 
将该节 点压入 栈中。 在完成 所有调 用后， 该栈就 成了节 点按后 序出现 的表， 其中 编号最 大的节 
点位 于栈顶 （前 端)。 这就 是我们 所需要 的反向 后序。 因 为深度 优先搜 索要花 0(m) 的时间 ，而 
且 将节点 压人栈 只需要 0  («) 的时 间， 所以整 个过程 要花费 0  (m) 的时 间。 


拓扑次 序和环 路查找 的应用 

本节 中讨论 的算法 在不少 情况下 是很实 用的。 当 执行用 节点表 示的特 定任务 所依照 的次序 
有约 束时， 拓扑 排序就 会变得 很方便 。 如 果在执 行任务 V 之前必 须执行 W， 就画 一条从 W 到 V 的弧， 
然 后拓扑 次 序就是 我们执 行所有 任务所 依照的 次序。 

非递归 函数 集合的 调用图 也是 相似的 例子， 在这 种情况 下我们 要在分 析了某 函数调 用的函 
数之后 再分析 该函数 。因为 弧是 从调用 者到被 调用 函数的 ，所 以拓 扑次序 的相反 次序， 也就是 
后序本 身是我 们分析 函数所 依照的 次序， 以确 保我们 只会在 处理完 某函数 调用的 函数后 再来处 
理该 函数。 

在 其他情 况下， 运 行该环 路测试 也是有 效的。 例如， 表 示任务 优先级 的图中 所含的 环路就 
表示执 行所有 任务是 没有次 序可依 照的， 而调 用图中 的环路 表示存 在递归 调用。 


♦ 示例 9.22 

在图 9-37a 中有 一幅无 环图， 而在图 9-37b 中是按 照字母 表次序 考虑节 点后得 到的深 度优先 
搜索 森林。 我 们在图 9-37b 中还 展示了 从这次 深度优 先搜索 中得到 的后序 编号。 如 果最先 把后序 
编号 最高的 节点列 出来， 我们就 得到拓 扑次序 (<i， e,  c,f,  b,  a)0 读者 应该自 行验证 一下图 9-3 7a 
的 8 条弧 中每条 弧的尾 部按照 该表的 次序都 先于其 头部。 而 这幅图 恰好还 有另外 3 种拓扑 次序， 
比如 (<i， c,  e， b,  /,  a)0 
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9.7.4 可达 性问题 

对于有 向图可 以提岀 一个很 自然的 问题： 给定一 个节点 〜 沿着有 向图中 的弧从 w 可以 到达 
哪些 节点？ 我们将 该节点 集合称 为节点 W 的可 达集。 其实， 如果对 图中每 个节点 W 都询问 这一可 
达性 问题， 就 能知道 对哪些 节点对 (W， V) 而言 存在从 W 到 V 的 路径。 

解决 可达性 问题的 算法很 简单。 如 果我们 对节点 w 感兴 趣， 就将所 有节点 标记为 UNVI SITED 
并调用 df  S  (U) 。 然后可 以再次 检测所 有节点 。那些 标记上 VISITED 的节点 就是从 W 可达的 节点， 
而其他 节点则 不是。 如果 想找到 从另一 个节点 w 可达的 节点， 就 将所有 节点再 次置为 
UNVISITED, 并调用 dfs(u)。 我们 可以为 所有想 要处理 的节点 重复该 过程。 

♦ 示例 9.23 

考虑图 9-37a。 如果 从节点 a 开始进 行深 度优先 搜索， 我们哪 里都去 不了， 因为 没有从 a 发出 
的弧。 因此， dfs(a) 会立即 终止。 因 为只有 a 被访 问过， 所以可 以得岀 结论， a 是从 a 可达 的唯 
一 节点。 

如果从 6 开始， 可 以到达 a， 但这也 就是全 部了， 所以 6 的可达 集就是 {a ， 以。 同样， 从 c 开 
始可以 到达沁 c,  /}, 从譜 J 可以到 达所有 节点， 从 e 可以 到达 沁， 乂  e,f}, 而 M/ 只 可以到 
达 {«，  /}。 

再举个 例子， 考虑 一下图 9-26。 从 a 可以 到达 所有的 节点。 不过 从除了 a 之外 的任意 节点岀 
发， 可以到 达除了 a 之外 的所有 节点。 


(b) 深度 优先搜 索森林 


图 9-37 无环 图的拓 扑排序 
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9.7.5 可 达性测 试的运 行时间 

假设 有向图 6含《 个 节点与 m 条弧。 还假设 G 是用 9.6 节中的 GRAPH 数据 类型表 示的。 首先， 
假设我 们想为 某节点 W 找到 其可 达集。 将所有 节点初 始化为 UNVISITED 需要 (9  0) 的时间 。对 
dfs  (u,G) 的调 用要花 (9 (w) 的 时间， 而且再 次检查 所有节 点看哪 些节点 被访问 过需要 (9 00 的时 
间。 在检 查节点 之时， 我们 还可以 创建由 从节点 w 可达 的节 点组成 的表， 这仍然 只用花 0(«) 的 
时间。 因此， 为一个 节点找 到可达 集要花 的 时间。 

现在假 设需要 为所有 《 个节点 找出可 达集。 我们可 以重复 该算法 〃次， 为每个 节点执 行一次 
该 算法。 因此， 总 时间为 

9.7.6 通过 深度优 先搜索 寻找连 通分支 

在 9.4 节中， 我 们给出 了为节 点数为 《 且节 点数与 边数较 大值为 m 的无向 图寻找 连通分 支的算 
法， 该算法 的运行 时间为 log«)。 我们用 于合并 分支的 树结构 本身是 很有意 义的， 例如， 
可以 利用它 帮助实 现克鲁 斯卡尔 的最小 生成树 算法。 不过， 如果 使用深 度优先 搜索， 我 们可以 
更高 效地找 到连通 分支。 正如 接下来 将要看 到的， 0(m) 的时 间就足 够了。 

思路就 是把无 向图当 作边被 两个方 向上的 弧替代 后的有 向图。 如 果用邻 接表表 示图， 那么 
甚 至不用 对这种 表示进 行任何 修改。 现在为 该有向 图构建 深度优 先搜索 森林， 森 林中的 每棵树 
都是该 无向图 的一 个连通 分支。 


传递闭 包和自 反传 递闭包 


设 是集合 ^上 的二元 关系。 可达性 问题就 可以视 作计算 i? 的自 反传递 闭包， 通常将 其表示 
为 尺*。 关系 / 是满 足以下 条件的 有序对 0,  V) 的 集合， 在由尺 表示的 图中， 从节点 W 到节点 V 存在 
长度为 0 或 0 以上的 路径。 

另一 种非常 类似的 关系是 尺+， 也就是 尺 的传递 闭包， 它是满 足如下 条件的 有序对 (W， V) 的 
集合。 在由 i? 表示的 图中， 从节点 W 到节点 V 存在 长度为 1 或 1 以上的 路径。 f 和 之间的 区别在 
于， （W， M) 对 S 中的 每个 W 而言 都在 /中， 而当且 仅当从 W 到 W 之间存 在一条 长度为 1 或 1 以 上的环 
路时， （W， W) 才在 矿中。 要从/ 计算 只需要 检查每 个节点 W 是否 有来 自其可 达节点 （包 括它 
本身） 的 进入弧 ( entering  arc  ), 如果 没有， 就 将^从 它自 己的可 达集中 删除。 


要知道 原因， 首先要 注意到 有向图 中的弧 w  4 v 的出 现表示 存在边 {w， v}。 因此， 树中的 
所 有节点 都是连 通的。 

现在 我们必 须证明 反向的 命题， 也就 是如果 两个节 点是连 通的， 那 么它们 在同一 棵树中 。假 
设在无 向图中 存在连 通不同 树中两 个节点 W 和 V 的 路径。 假如 《 的树 是首先 构建起 来的。 那么 在有向 
图中 存在从 W 到 V 的路 径， 这表明 V 和该 路径上 的所有 节点都 应该已 经被添 加到含 《的 树中。 因此， 
当 且仅当 无向图 中的节 点在同 一棵树 中时， 它们 才是连 通的， 也就 是说， 这 些树都 是连通 分支。 

♦ 示例 9.24 

再次 考虑图 9-4 中的无 向图。 图 9-38 展示了 我们可 以为该 图构建 的一种 可能的 深度优 先搜索 
森林。 要 注意这 3 棵深度 优先搜 索树是 如何与 3 个连通 分支对 应的。 
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图 9-38 深度优 先搜索 森林将 无向图 分为连 通分支 

9.7.7  习题 

(1)  为图 9-37 所 示的图 找岀所 有拓扑 次序。 

(2) *假设穴 是 定义域 D 上偏序 关系。 我们 可以用 i? 的图 来表示 i?， 其中 节点是 D 中的 元素， 而 且只要 Mv 
且 w  #  V 就 存在弧 w  4  V 。设 (v^  v2, …， v„) 是 的图 的拓扑 次序。 设关系 r 是这 样定 义的， 只要 j  , 
就有 v,.：^。 证 明下列 命题。 

(a)  7 是全序 关系。 

(b) i? 中的有 序对是 r 中有 序对的 子集， 也 就是， 7 是包 含了偏 序关系 i? 的全序 关系。 

(3)  对图 9-21 所 示的图 （在 将其 转换为 对称的 有向图 之后） 应用深 度优先 搜索， 找岀 其连通 分支。 

(4)  考虑 含有弧  a4c ， b^a  ,  b  ^>c  ,  和  e— >c  的图。 

(a)  对 该图进 行环路 测试。 

(b)  为 该图找 出所有 的拓扑 次序。 

(c)  为每 个节点 找岀可 达集。 

(5) * 在 9.8 节中， 我们会 考虑找 到从源 节点础 发的最 短路径 的一般 问题。 也就 是说， 如果从 劍各个 
节点 M 的最 短路径 存在， 我 们希望 弄清这 些最短 路径的 长度。 如果是 有向无 环图， 这个问 题就要 
简单 一些。 给岀 算法， 计 算有向 无环图 G 中从 节点 s 到各节 点《 的最短 路径的 长度， 如果这 样的路 
径 不存在 则是无 限长。 大 家设计 的算法 应花费 0(m) 的时 间， 其中 m 是图 G 中 节点数 和弧数 的较大 
者。 证明自 己的算 法具有 该运行 时间。 提示： 首先对 G 进行 拓扑 排序， 依次访 问每个 节点。 在访 
问节点 w 时， 根据已 经计算 岀的透 IJw 的 前导的 最短距 离来计 算从通 IJw 的最短 距离。 

(6)  * 为有向 无环图 G 给岀 计算以 下几项 内容的 算法。 大 家给岀 的算法 应该有 0(m) 的运行 时间， 其中 
m 是 C? 中节点 数和弧 数的较 大者， 而 且大家 应该证 明这一 运行时 间就是 自己设 计的算 法所需 要的。 
提示： 对习题 (5) 中的 思路加 以 改造。 

(a)  对每 个节点 w, 找到从 w 到任意 节点的 最长路 径的 长度。 

(b)  对每 个节点 w, 找到 从任意 节点到 w 的最 长路径 的长度 。 

(C) 对 给定的 源节点 S 和 G 的所 有节点 M， 找到从 S 到 M 的最长 路径的 长度。 

(d)  对 给定的 源节点 S 和 G 的所 有节点 M， 找到从 M 到 S 的最长 路径的 长度。 

(e)  对每 个节点 w, 找 到经过 w 的 最长路 径的 长度。 
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9.8 用 于寻找 最短路 径的迪 杰斯特 拉算法 

假 设有一 幅图， 它 既可能 是有向 图也可 能是无 向图， 它的弧 （ 或边） 都带有 表示弧 （ 或边） 
的 “ 长度” 的 标号。 图 9-4 就是个 例子， 它展示 了夏威 夷群岛 的特定 公路的 距离。 想知道 两个节 
点间的 最小距 离是特 别平常 的事， 例如， 地 图上通 常会带 有行车 距离的 表格， 从 而指示 出人们 
一天中 可以开 多远， 或是有 助于确 定经过 不同的 中间城 市的两 条路线 中哪条 更短。 类似 的问题 
会给 每条弧 关联上 沿着该 弧行进 所花的 时间， 或者可 能关联 上经过 该弧的 开销。 那么两 个节点 
间 的最小 “ 距离” 就分别 对应着 岀行的 时间或 费用。 

一般 而言， 路 径的距 离是该 路径上 所有弧 （或 边的） 标号 之和。 而 从节点 w 到节点 v 的最小 
距 离是从 w 到 v 的任意 路径的 距离中 最小的 那个。 

♦ 示例 9.25 

考虑 一下图 9-10 中瓦 胡岛的 地图。 假设 想要找 出从迈 里到卡 内奥赫 的最小 距离， 有 若干路 
径可 供我们 选择。 有一个 实用的 观点， 只要 弧的标 号是非 负的， 那 么最小 距离路 径中就 绝对不 
会有 环路。 我们可 以跳过 环路， 并在同 样的两 个节点 间找到 一条距 离不超 过含环 路路径 距离的 
路径。 因此， 我们只 需要考 虑如下 路径。 

(1)  经 过珍珠 城和檀 香山的 路径。 

(2)  经 过瓦西 阿瓦、 珍珠 城和檀 香山的 路径。 

(3)  经 过瓦西 阿瓦和 拉耶的 路径。 

(4)  经过珍 珠城、 瓦西 阿瓦和 拉耶的 路径。 

这 些路径 的距离 分别是 44、 51、 67 和 84。 因此， 从迈 里到卡 内奥赫 的最小 距离是 44。 

如果 想找到 从某给 定节点 （称 为源 节点） 到 图中所 有节点 的最小 距离， 可以 使用的 最有效 
的技巧 之一就 是迪杰 斯特拉 算法， 这 也就是 本节的 主题。 事实 证明， 如果 我们想 要的就 是从一 
个节点 《 到另一 个节点 v 的距 离， 最 佳方式 就是以 w 为源 节点运 行迪杰 斯特拉 算法， 并在 得岀到 v 
的距离 时停止 算法。 如果 我们想 找到每 个节点 对之间 的最小 距离， 就 要用到 9.9 节 中将要 介绍的 
算法， 弗 洛伊德 算法， 该 算法有 时要比 以每个 节点为 源节点 运行迪 杰斯特 拉算法 更值得 选择。 

迪 杰斯特 拉算法 的本质 就是， 我们按 照这些 最小距 离从小 到大的 次序， 也就 是最近 的节点 
最先的 次序， 找到 从源节 点到其 他节点 的最小 距离。 随 着迪杰 斯特拉 算法的 进行， 就有 了类似 
图 9-39 所示的 情形。 在图 G 中， 存在某 些特定 的节点 是已解 决的， 也就 是说， 它们 的最小 距离是 
已 知的， 这一 集合总 包括源 节点〜 对 未解决 的节点 V， 我们要 记录最 短特殊 路径的 长度， 所谓 
特殊 路径， 就是从 源节点 出发， 只经过 已解决 节点， 然后在 最后一 步跳出 已解决 区域直 接到达 v 
的 路径。 

我们 要为每 个节点 W 记录也 值。 如果 W 是已 解决 节点， 那么 沿对⑻ 就 是从源 节点到 W 的最短 
路径的 长度。 如果 《不 是已解 决的， 那么沿 4«)就 是从源 节点到 W 的最 短特殊 路径的 长度。 一 开始， 
只有 源节点 是已解 决的， 而且也 忉 =  0, 因 为只由 s 自己 构成 的路径 的长度 肯定是 0。 如果 存在从 
读 1知 的弧， 那么沿 邱《) 就是 该弧的 标号。 请 注意， 在只有 s 是已 解决节 点时， 特殊路 径只包 含那些 
从 5 岀发 的弧， 所 以如果 存在从 5 到 W 的弧， 也? ⑻就应 该是弧 S  4  W 的 标号。 我们还 将使用 定义的 
常量 INFTY， 该常量 要比图 G 中任意 路径的 距离都 要大。 INFTY 是作为 “无 限的” 值 使用的 ，表 
示 尚未发 现特殊 路径。 也就 是说， 如果一 开始不 存在弧 S  y  W ， 就有 沿对 ⑻ =  INFTY。 
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现 在假设 我们有 些已解 决节点 和一些 未解决 节点， 如图 9-39 所示。 我们发 现节点 v 是未 解决 
的， 但在所 有未解 决节点 中具有 最小的 直。 可以 通过以 下方式 “ 解决”  V。 

(1)  接受也 <v) 作为从 5 到 V 的最小 距离。 

(2)  对 所有尚 未解决 的节点 w， 调整咖 和) 的值， 以表明 v 现在已 解决这 一事实 。 

第 (2) 步所 要求的 调整如 下所述 ^ 我们 要对也 私) 的旧值 与也? (v) 加上弧 的 标号的 和进行 
比较， 如果 后者所 述的和 较小， 就将也 办 0 替换为 该和。 如果不 存在弧 ， 就不用 调整也 ?(w)。 

♦ 示例 9.26 

考虑 一下图 9-10 中的 瓦胡岛 地图。 该 图是无 向图， 不过 可以假 设图中 的边是 两个方 向上的 
弧。 设源 节点为 檀香山 。 那么一 开始， 只有 檀香山 是已解 决的， 而且其 距离为 0。 我们可 以将必 ? 
( 珍珠城 ） 置为 1 3 并将 (卡内 奥赫） 置为 1 1 ， 不 过对其 他城市 来说， 没有 从檀 香山岀 发到这 
些城市 的弧， 所 以它们 与檀香 山的距 离就是 INFTY。 这种情 形如图 9-40 的 第一列 所示。 距离值 
上的星 号表示 该节点 是已解 决的。 


城  市 

轮  次 

(1) 

(2) 

(3) 

(4) 

(5) 

檀香山 

0* 

0* 

0* 

0* 

0* 

珍珠城 

13 

13 

13* 

13* 

13* 

迈里 

INFTY 

INFTY 

33 

33 

33* 

瓦 西阿瓦 

INFTY 

工  NFTY 

25 

25* 

25* 

拉耶 

工  NFTY 

35 

35 

35 

35 

卡 内奥赫 

11 

11* 

11* 

11* 

11* 

沿 对的值 

图 9-40 迪杰 斯特拉 算法执 行过程 中的各 个阶段 

在 这些未 解决节 点中， 具有 最小距 离的节 点现在 为卡内 奥赫， 所以 这节点 就是已 解决的 。存 


在 从卡内 奥赫到 檀香山 和拉耶 的弧。 到檀 香山的 弧是派 不上用 场的， 不过也 ?（ 卡内 奥赫） 的值 11 ， 
加上从 卡内奥 赫到拉 耶的弧 的标号 24, 总共为 35, 要 小于当 前也？ （拉 耶） 的值 —— “无限 大”。 
因此， 在第二 列中， 我们 已经把 到拉耶 的距离 减小到 35。 而卡内 奥赫现 在是已 解决节 点了。 
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在下 一轮处 理中， 具 最小距 离的未 解决节 点是珍 珠城， 其 距离为 13。 在 我们解 决珍珠 城时， 
还必须 考虑珍 珠城的 邻居， 也就 是迈里 和瓦西 阿瓦。 我 们可以 将到迈 里的距 离减至 33  (13 和 20 
的 和）， 并将到 瓦西阿 瓦的距 离减至 25  (  13 和 12 的 和)。 现在 的情况 就如第 (3) 列 所示。 

接 下来要 解决的 是瓦西 阿瓦， 其 距离为 25, 在当前 的未解 决节点 中是最 小的。 不过， 该节 
点不 允许我 们减少 到其他 节点的 距离， 所以第 (4) 列与第 (3) 列 有着相 同的距 离项。 同样， 接着要 
解决 迈里， 其 距离为 33, 不 过它也 不能减 少任何 距离， 所以第 (5) 列的各 距离项 也与第 (4) 列的相 
同。 严格 地说， 必须 解决最 后一个 节点， 拉耶， 不过最 后一个 节点不 可能影 响到其 他距离 ，所 
以第 (5) 列就给 出了从 檀香山 到所有 6 个城市 的最短 距离。 

9.8.1 迪杰斯 特拉算 法起效 的原因 

为了 证明迪 杰斯特 拉算法 是起作 用的， 必须 假设弧 的标号 都是非 负的。 ® 我们 将通过 对灸的 
归纳 证明， 在存在 ^个 已 解决节 点时， 下 列命题 成立。 

(a)  对每 个已解 决节点 w 来说， 也和) 是从通 Jw 的最小 距离， 而且到 w 的最 短路 径只由 已解决 
节点 组成。 

(b)  对每 个未解 决节点 w 来说， 是从 s 到 w 的 任意特 殊路径 的最小 距离， 如 果不存 在这样 
的路 径则为 INFTY。 

依据。 对 hi,  S 是 唯一的 已解决 节点。 我 们将咖 办) 初 始化为 0, 这满足 了⑻。 而对 其他每 
个节点 W， 如果弧 S  — W 存在， 我 们就将 沿功>) 初 始化为 该弧的 标号， 如 果不存 在就初 始化为 
INFTY。 因此， （b) 也得到 满足。 

归纳。 现 在假设 (a) 和 (b) 在 A 个节 点被解 决后还 成立， 并设 @ 第 A+1 个被 解决的 节点。 我们声 
明 (a) 仍然 成立， 因 为也？ (v) 是从 5 到 v 的任 意路径 的最短 距离。 假设 不是， 根 据归纳 假设的 (b) 部分， 
当 有什节 点已解 决时， 也? (v) 是到 v 的任 意路径 的最小 距离， 而 且一定 存在到 距离更 短的到 v 的非 
特殊路 径。 如图 9-41 所示， 这一路 径一定 会在某 个节点 w  (可能 是节点 s) 离开 已解决 节点， 并行 
向某 个未解 决节点 从那里 开始， 该路径 可能反 复进出 已解决 节点， 直到它 最终到 达节点 V。 


不过， V 被选 定为第 A+1 个 已解决 节点。 这就 意味着 这时的 不 会小于 否 则就要 
选择 乍为 第奸 1 个 节点。 根 据归纳 假设的 (b) 部分， 也? ⑻是到 〃的 任意 特殊路 径的最 小距离 。不 
过图 9-41 中从邊 IJw 再到 w 的 路径是 条特殊 路径， 所 以该路 径的距 离至少 为沿叫 0。 因此， 假设的 


① 如 果允许 标号是 负值， 我们 就可以 找到一 些迪杰 斯特拉 算法会 给出错 误答案 的图。 
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经过 W 和 M 的从廷 Ijv 的 更短路 径的距 离至少 为沿冰 V)， 因 为该路 径从廷 b 那部分 的距离 已经是 
distiuyr ， 而 且有沿 对⑻ 彡咖? (V)。 ® 因此， ⑻ 对奸 1 个节点 也是成 立的， 也就 是说， 当 我们将 V 
纳入已 解决节 点的行 列时， （a) 继续 成立。 

现在 必须证 明当把 v 添加 到已解 决节点 中时， （b) 仍然 成立。 考 虑当把 v 添加到 已解决 节点中 
时仍 然未解 决的某 个节点 W。 在到 W 的最短 特殊路 径上， 肯 定存在 某倒数 第二个 节点， 这 个节点 
既 可能是 v 也可 能是 其他某 个节点 w。 这 两种可 能如图 9-42 所示。 


首先假 设倒数 第二个 节点是 V。 那么图 9-42 中所 示从綠 Uv 再到 t/的 路径的 长度就 是济对 (v) 加上 
弧 的 标号。 

另外， 假设倒 数第二 个节点 是其他 某节点 W。 根据归 纳假设 (a) ， 从 s 到 w 的 最短路 径只由 v 之 
前 的已解 决节点 组成， 因此， v 没有 出现在 这条路 径上。 所以， 当把 v 添加 到已解 决节点 中时， 
到 w 的最短 特殊路 径不会 改变。 

现 在回想 一下， 当解决 V 时， 会 把每个 £&?(«) 值 调整为 的旧 值与 加上弧 W 的 
标号 这两者 中的较 小者。 前 者表示 的是除 V 之外 的某 个节点 W 作为 倒数 第二个 节点的 情况， 而后 
者则是 V 为倒数 第二个 节点的 情况。 因此， （b) 部分也 成立， 这样 就完成 了归纳 步骤。 

9.8.2 迪杰斯 特拉算 法的数 据结构 

现在 要展示 迪杰斯 特拉算 法的一 种高效 实现， 它 利用了 5.9 节 的平衡 偏序树 结构。 ® 这里要 
使 用两个 数组， 一个 是表示 该图的 graph 数组， 另 一个是 表示偏 序树的 potNodes。 这 样做的 
目 的是， 对 图中的 各节点 w， 都有 一个与 之对应 的偏序 树节点 a, 其 优先级 就等于 不过， 
和 5.9 节不同 的是， 我们 将按照 最低优 先级而 不是最 高优先 级来组 织该偏 序树。 或者， 我 们可以 
取 为 a 的优 先级。 图 9-43 展 示了这 种数据 结构。 

我们用 NODE 作为图 节点的 类型。 和往常 一样， 将用从 0 开始 的整数 为节点 命名， 还 将使用 
POTNODE 作为偏 序树中 节点的 类型。 就像在 5.9 节中 那样， 为了 方便， 我们 会假设 偏序树 中的节 
点 是用从 1 开始的 整数编 号的。 因此， NODE 和 POTNODE 类型就 等同于 int。 


① 请 注意， 所有 标号都 非负的 事实是 至关重 要的， 如果 不这样 的话， 该 路径从 W 到 v 的 部分的 距离有 可能为 负值， 
这样就 会得到 一条到 v 的更短 路径。 

②  其实， 当 弧的数 量要比 节点数 的平方 （也就 是能达 到的弧 的最大 数量） 小一 些时， 这种实 现是唯 一的好 方法。 
我们将 在习题 中讨论 用于稠 密图情 况的一 种简单 实现。 
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graph 


dist 

succs • 

toPOT 

potNodes 

1 

a 

a 

u 

n 

图 9-43 用来 表示对 应迪杰 斯特拉 算法的 图的数 据结构 
GRAPH 数据 类型定 义如下 

typedef  struct  { 
float  dist ; 

LIST  successors ; 

P0TN0DE  toPOT; 

}  GRAPH [MAX] ; 

这里， MAX 是图 中的节 点数， 而 LIST 则是由 CELL 类型的 单元组 成的邻 接表的 类型。 因为 
需要 加上为 浮点数 标号的 标签， 所以就 应该像 下面这 样定义 CELL 类型 

typedef  struct  CELL  *LIST; 
struct  CELL  { 

NODE  nodeName; 
float  nodeLabel; 

LIST  next; 

>； 

我 们将数 据类型 POT 声 明为图 中节 点组成 的数组 

typedef  NODE  P0T[MAX+1] ; 

我 们现在 可以定 义以下 关键数 据结构 

GRAPH  graph; 

POT  potNodes ; 

P0TN0DE  last; 

结构 体数组 graph 含有 图中的 节点， 而数组 potNodes 则包含 了偏序 树中的 节点， 而变量 
■测表 示偏序 树 （ 存放 在数组 potNodes  [1 .  .  last] 中） 当前的 末端。 

直觉 上讲， 偏 序树的 结构是 用数组 potNodes 中的 位置表 示的， 就像 平常表 示偏序 树那样 。该 
数组中 的元素 让我们 通过引 用回图 本身来 区分节 点的优 先级。 特 别要说 的是， 在 potNodes  [a] 中 
放 置的是 所表示 图节点 的索引 w。 而 dist 字段 graph  [u]  .  dist 给岀 了节点 a 在偏 序树 中的优 先级。 

9.8.3 迪杰斯 特拉算 法的辅 助函数 

我 们需要 若干辅 助函数 来让实 现运转 起来。 最 基础的 函数是 swap, 它 会交换 偏序树 中的两 
个 节点。 这 个问题 并不像 5.9 节中 的那么 简单。 在 这里， graph 的 toPOT 字 段必须 继续记 录数组 
potNodes 中 的值， 如图 9-43 所示。 也就 是说， 如果 graph  [u]  .toPOT 的值为 a， 那么还 肯定有 
potNodes  [a] 的值为 
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swap 函 数的代 码如图 9-44 所示。 它接受 的参数 包括图 G、 偏序树 P， 以 及偏序 树中的 两个节 
点 a 和 b。 这 里将检 验该函 数交换 偏序树 a 和 6 两项中 的值 并交换 对应图 节点的 toPOT 字段 的工作 
留给读 者作为 练习。 


void  swa 

p(P0TN0DE 

a,  P0TN0DE  b,  GRAPH  G,  POT  P) 

{ 

NODE 

t emp;  / * 

用来交 换偏序 树节点 */ 

temp 

= P[b] ; 

P[b] 

= P  [a] ; 

P[a] 

= temp; 

G [P [a] : .toPOT 

= a; 

G [P [b] ] .toPOT 

= b; 

> 

图 9-44 交 换偏序 树中两 个节点 的函数 

我 们将需 要让节 点在偏 序树中 上冒与 下沉， 就像在 5.9 节中 所做的 那样。 其主 要区别 在于， 
这里 的数组 potNodes 中元 素的值 不是优 先级。 这个值 会把我 们带到 graph 数组中 的节点 ，而 
在表 示该节 点的结 构体中 可以找 到字段 dist， 它 会告诉 我们优 先级。 因此 我们还 需要辅 助函数 
priority 返回合 适节点 对应的 dist。 我们 还将在 本节内 容中作 出如下 假设， 较小 的优先 级会上 
升到偏 序树的 顶端， 而非 5.9 节中 那样是 较大优 先级。 

图 9-45 展示了 priority、 bubbleUp 和 bubbleDown 函数， 它们 都是对 5. 9 节中同 名函数 
进行 简单修 改后得 到的。 这些 函数都 接受图 G 和偏 序树 P 作为参 数。 而函数 bubbleDown 还需要 
整 数参数 last, 用来表 示数组 P 中当 前偏 序树的 末端。 


float  priority (P0TN0DE  a,  GRAPH  G,  POT  P) 

{ " 

return  G [P [a] ] . dist ; 

} 

void  bubbleUp (P0TN0DE  a,  GRAPH  G，  POT  P) 

{ 

if  ((a  >  1)  && 

(priority(a,  G,  P)  <  priority (a/2 ,  G,  P) ) )  { 
swap (a,  a/2,  G,  P) ; 
bubbleUp (a/2,  G,  P) ; 


void  bubbleDown (P0TN0DE  a,  GRAPH  G,  POT  P,  int  last) 

{ 

P0TN0DE  child; 

child  =  2*a; 
if  (child  <  last  && 

priority (child+1 ,  G，  P)  <  priority (child,  G,  P) ) 
++child; 

if  (child  <=  last  && 

priority (a,  G，  P)  >  priority (child,  G ,  P) )  { 
swap (a,  child,  G，  P) ; 
bubbleDown(child,  G,  P,  last) ; 


图 9-45 偏序树 中节点 的上冒 与下沉 


9.8 用 于寻找 最短路 径的迪 杰斯特 拉算法  411 


void  initialize (GRAPH  G,  POT  P,  int  *pLast) ; 
{ 

int  i ;  / *  i 既 作为图 节点， 也 作为树 节点， */ 

for  (i  =  0;  i  <  MAX;  i++)  { 

G[i] .dist  =  INFTY; 

G[i] .toPOT  =  i+1; 

P[i+1]  =  i; 

> 

G[0] .dist  =  0; 

OpLast)  =  MAX; 


正 如我们 将要看 到的， 在 迪杰斯 特拉算 法的第 一轮处 理中， 我 们选择 “ 解决” 源 节点， 这 
样 就创造 了可以 作为非 正式介 绍中起 始点的 条件， 其中 源节点 是已解 决的， 而且 dist  [U] 只有 
在存 在从源 节点到 w 的 弧时才 不是无 限长。 初 始化函 数如图 9-46 所示。 正如 本节中 之前的 函数那 
样， initialize 接受图 和偏序 树作为 参数， 还要 接受指 向整数 last 的指针 pLast ， 所 以该函 
数 可以将 pLast 初 始化为 也就是 该图中 节点的 数量。 回想 一下， last 表示 的是与 当前正 
使用 的偏 序树对 应的数 组中最 后一个 位置。 


图 9-46 迪杰 斯特拉 算法的 初始化 

请 注意， 偏 序树的 索引是 1 到 M4X， 而对图 来说， 这 些索引 就是从 0 到 M4X-1。 因此， 在图 
9-46 的第 (3) 行和第 (4) 行中， 必须一 开始就 把图中 的节点 / 对应到 偏序树 的节点 /+1 。 


9.8.4 初始化 

我们 将假设 对应图 中各节 点的邻 接表已 经创建 ，而 且指向 图节点 t/ 的邻 接表的 指针已 经岀现 
在 graph  [U]  .  successors 中。 还要假 设节点 0 是源 节点。 如 果接受 图节点 / 与偏序 树节点 /+1 
对应， 数组 potNodes 就恰如 其分地 被初始 化为偏 序树。 也就 是说， 偏序 树的根 节点表 示图的 
源 节点， 也 就是我 们给定 优先级 0 的 节点， 而且 我们要 为所有 其他节 点给定 优先级 INFTY， 这是 
定义为 “ 无限” 的 常量。 


带 异常的 初始化 

请 注意， 在图 9-46 的第 (2) 行中， 我们将 dist  [1] 以及 所有其 他距离 都置为 INFTY。 接着 
在第 (5) 行， 再将 该距离 修正为 0。 与测 试每个 / 值以确 定其是 否为异 常情况 相比， 这种方 式要更 
具 效率。 诚然， 如果我 们将第 (2) 行 替代为 

if  (i  ==  0) 

G[i]  .dist  =  0; 
else 

G[i] .dist  =  INFTY; 

就可以 消除第 (5) 行， 不过 这样一 来不仅 增加了 代码， 还会增 加运行 时间， 因为这 样修改 
就必 须进行 《 次测 试和 《次 赋值， 而不 是像图 9-46 中的第 (2) 行和第 (5) 行那 样只用 进行 《+1 次赋值 
而不 用进行 测试。 
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void  Dijkstra(GRAPH  G,  POT  P，  int  *pLast) 

{ 

NODE  u,  v;  /*  v 是我们 要解决 的节点 */ 

LIST  ps;  /*  ps 沿着 v 的后 继表 下行， u 是 ps 
指 向的那 个后继 */ 

initialize (G,  P,  pLast) ; 
while  ( (*pLast)  >  1)  { 
v  =  P[l] ; 

swap ( 1 ,  *pLast,  G,  P) ; 

— (*pLast) ; 

bubbleDown(l ,  G,  P, 木 pLast) ; 
ps  =  G[v] .successors; 
while  (ps  !=  NULL)  { 
u  =  ps->nodeName; 

if  (G[u] . dist  >  G[v] .dist  +  ps->nodeLabel)  { 
G [u] .dist  =  G[v] .dist  +  ps->nodeLabel; 
bubbleUp(G[u] ,toP0T,  G,  P) ; 

> 

ps  =  ps->next ; 

} 


9.8.5 迪 杰斯特 拉算法 的实现 

图 9-47 展示 了迪杰 斯特拉 算法的 代码， 利用到 了我们 之前已 经编写 的所有 函数。 要 为对应 
偏序树 potNodes 以及 带有指 示偏序 树末端 的整数 last 的图 graph 执行 迪杰 斯特拉 算法， 就要 
初始 化这些 变量， 然 后调用 

Dijkstra (graph,  potNodes ,  &last) 

函数 Diijkstm 的工 作原理 如下。 在第 (1) 行我们 要调用 initialize。 其余 代码， 也 就是第 
(2) 行到第 (13) 行是个 循环， 该循 环每次 迭代都 对应迪 杰斯特 拉算法 的一轮 处理， 在 迭代中 我们要 
选择一 个节点 v 并将其 解决。 在第 (3) 行选择 的节点 v 总是 对应树 节点为 偏序树 根节点 的 那个。 在第 
(4) 行， 通 过交换 v 与偏 序树当 前的最 后一个 节点， 我们把 v 从偏 序树中 取岀。 第 (5) 行 其实是 通过递 
减 last 将 v 删除。 然后第 (6) 行通过 Xf 我们 刚放 置到根 节点位 置的节 点调用 bubbleDown， 还原了 
偏序树 属性。 事 实上， 未解决 节点会 岀现在 to? 之下， 而 已解决 节点则 岀现在 to 汲 to 似上的 位置。 


图 9-47 迪杰 斯特拉 算法的 主函数 

在第 (7) 行 我们开 始调整 距离， 以反映 v 现在 已被 解决的 事实。 指针; ? 被初始 化为指 向节点 v 
邻 接表的 开头。 在第 (9) 行把变 量《 置为 v 的某 一后继 之后， 我 们在第 (10) 行测 试了到 W 的最 短特殊 
路径是 否经过 V。 只 要该数 据结构 中由 G  [u ]  .  di s t 表示 的沿对 (w) 的 旧值 大于沿 对 (v) 加上弧 v—>u 
标号 的和， 就有 这一最 短特殊 路径经 过节点 V。 如果 这样， 那 么在第 (11) 行， 将^& 办 0 置 为新的 
更小 的值， 并在第 (12) 行调用 bubbleUp。 所以， 如 果需要 的话， w 可以在 偏序树 中上升 到反映 
其新优 先级的 位置。 在第 (13) 行 中随着 沿着 v 的邻接 表向下 移动， 该 循环就 随之完 成了。 

9.8.6 迪杰斯 特拉算 法的运 行时间 

正如之 前所述 那样， 假设 图具有 《个 节点， 而且 m 是弧数 与节点 数的较 大者。 这里将 会按照 
描述这 些函数 的次序 分析每 个函数 的运行 时间。 首先， swap 函数显 然花费 0 ⑴的时 间， 因为它 
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只由 赋值语 句组成 。 同样 priority 函数 也花费 (9 ⑴的 时间。 

bubbleUp 函数 是递归 函数， 但它 的运行 时间是 0 ⑴加上 对到根 节点一 半距离 的节点 递归调 
用该 函数的 时间。 正如 我们在 5.9 节 中验证 过的， 至 多存在 log  «次 调用， 而且 每次调 用需要 0(1) 
的 时间， 所以 bubbleUp 的总 运行时 间就是 (9 (log «)。 同样， bubbleDown 也花费 (9(10§«)的 时间。 

initialize 函 数要花 0 ⑻的时 间。 具 体来说 就是， 第⑴ 行到第 (4) 行的循 环要迭 代《 次， 
而其 循环体 每次迭 代要花 0  (1) 的 时间。 这 就给了 该循环 0  («) 的 时间。 第 (5) 行和第 (6) 行 各自贡 
献了 0  (1) 的 时间， 不过我 们在大 0 表达式 中可以 将其省 略掉。 

现 在把注 意力转 移到图 9-47 中的 Dijkstra 函 数上。 是节点 v 的 出度， 或 者说是 v 的邻接 
表的 长度。 我 们首先 分析第 (8) 行到第 (13) 行 的内层 循环。 第 (9) 行到第 (13) 行 的各行 都要花 0  (1) 
的 时间， 除了第 (12) 行对 bubbleUp 的 调用之 夕卜， 我 们论证 过该调 用要花 0 (log ⑷的时 间。 因此， 
该循环 的循环 体要花 0  (log  «) 的时 间。 该 循环进 行的次 数等于 v 对应 的邻 接表的 长度， 之 前已经 
将其 表示为 Wv 了。 因此， 第⑻ 行到第 (13) 行的 循环的 运行时 间可以 表示为 0(l+mvlog«)， 1 这一 
项表 示的是 v 没有 后继， 也就是 mv=0 的 情况， 不 过我们 还是要 进行第 (8) 行的 测试。 

现在 考虑第 (2) 行到第 (13) 行 的外层 循环。 我们 已经验 证过第 (8) 行到第 (13) 行了。 第 (6) 行调 
用 bubbleDown 需要的 时间。 而循环 体的其 他各行 都只要 0(1) 的 时间， 因 此整个 循环体 需要花 
上 6>((l+mv)  log  «)的 时间。 

外层循 环刚好 要迭代 《-1 次 ，因 为 las  t 的范 围是从 《 减少到 2。 1+爪1;中 的 1 这 一项因 此 要贡献 
n-\, 或 者说是 Oh) 的 时间。 不过， /^这 项一定 要为各 个节点 v 相加， 因为所 有节点 （除 了最后 
一个 节点） 都 要被选 作一次 V。 因此， mv 对外 层循环 所有迭 代的总 贡献是 0  (m)， 因为有 
工' mv 彡 m 。 由此可 以得岀 外层循 环要花 (9  (w.  log  «)的 时间。 第⑴ 行对 initialize 的 调用要 
花 0 ⑻的时 间， 不过可 以将其 省略。 这样 一来就 得到迪 杰斯特 拉算法 的运行 时间为 log  «)， 
也就 是说， 至多 是查看 图中的 节点和 弧所花 时间的 log  « 倍。 

9.8.7 习题 

⑴ 按照图 9-21 中所 示的图 （见 9.4 节的习 题）， 找到 从底特 律到其 他城市 的最短 距离。 如果某 城市是 
从底特 律不可 达的， 则这 个最小 距离为 “无 限”。 

(2)  有时 候我们 希望计 算从一 个节点 到另一 个节点 遍历的 弧的数 量。 例如， 我们 可能希 望把在 乘飞机 
或坐公 交车岀 行过程 中的换 乘次数 减少到 最小。 如果给 每条弧 标记上 1， 那么 最小距 离计算 就会变 
成 数弧的 过程。 为图 9-5 中的图 （见 9.2 节的 习题） 找岀 从节点 a 到达 各节点 所需要 的最小 弧数。 

(3)  图 9-48a 中有 7 个 灵长类 物种以 及它们 名称的 缩写。 这些 物种中 的某些 物种已 知要先 于其他 物种岀 
现， 因 为在同 一地点 代表时 间流逝 的不同 地层中 发现了 它们的 化石。 图 9-48b 中的表 给岀的 三元组 
(x,  y,  0 表 示物种 x 与物种 是在 同一地 点被 发现， 不过 x 要比 ^ 早 〖百 万年 岀现。 

(a)  画岀 表示图 9-48 中数 据的有 向图， 其中弧 是从较 早的物 种到达 较晚的 物种， 弧的 标号就 表示物 
种间 的时间 差异。 

(b)  以 AF 为源 节点， 对 (a) 小 题画岀 的图运 行迪杰 斯特拉 算法， 找到 AF 之后的 各其他 物种与 它相差 
的最短 时间。 

(4)  * 我 们给岀 的 迪杰斯 特拉算 法的实 现需要 0  (m  log  «)的 时间， 这 一时间 要小于 <9  (n2) 的 时间， 除了 
弧的数 量接近 的情况 之外。 如果 m 很大， 就可以 谋划另 一种不 需要用 到优先 级队列 的实现 ，这 
样 在每一 轮处理 中就不 再需要 0(n) 的时间 选择要 解决的 节点， 而 只需要 0(m„) 的 时间， 也 就是与 
从已解 决节点 w 岀发 的弧的 数量成 正比的 时间， 来更新 必对。 得到的 是一种 0(«2) 时间的 算法。 完善 
这 里提岀 的 思路， 并 为迪杰 斯特拉 算法的 这种实 现编写 C 语言 程序。 
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Australopithecus  Afarensis  (最 早南方 古猿） 

AF 

Australopithecus  Africanus  ( 非 洲南方 古猿） 

AA 

Homo  Habilis  ( 能人） 

HH 

Australopithecus  Robustus  ( 粗 壮南方 古猿） 

AR 

Homo  Erectus  ( 直 立人） 

HE 

Australopithecus  Boisei  (鲍 氏南方 古猿） 

AB 

Homo  Sapiens  (智 人） 

HS 

(a) 物种及 其缩写 


物种 1 

物种 2 

时  间 

AF 

HH 

1.0 

AF 

AA 

0.8 

HH 

HE 

1.2 

HH 

AB 

0.5 

HH 

AR 

0.3 

AA 

AB 

0.4 

AA 

AR 

0.6 

AB 

HS 

1.7 

HE 

HS 

0.8 

(b) 物种 1 先 于物种 2 的时间 
图 9-48 灵 长类物 种之间 的关系 


(5) ** 如果某 些弧的 标号为 负值， 迪杰斯 特拉算 法就不 是永远 都能奏 效了。 给岀 一幅能 让迪杰 斯特拉 
算 法给出 错误最 小距离 的带负 值标号 的图。 

(6)  ** 设 G 是我们 已经为 其运行 过迪杰 斯特拉 算法并 以某种 次序解 决了其 中节点 的图。 假 设要为 G 添 
加一 条权为 0 的弧 以形 成新图 G。 在什 么情况 下迪杰 斯特拉 算法为 G 解决节 点的次 序与为 
G 解 决节点 的次序 相同？ 

(7)  ** 在 本节中 我们采 用的方 法是把 表示图 G 的数 组与存 储整数 （作为 指向其 他数组 索引） 的 偏序树 
关联 起来。 另一种 方式是 使用指 向数组 元素的 指针。 使用 指针替 代整数 索引， 重新 实现迪 杰斯特 
拉 算法。 

9.9 最短 路径的 弗洛伊 德算法 

如果想 知道含 〃个节 点的非 负标号 图中所 有节点 对之间 的最小 距离， 可以把 每个节 点《 作为 
源节 点来运 行迪杰 斯特拉 算法。 因 为运行 一次迪 杰斯特 拉算法 所需的 时间为 0(m  log  n)， 其中 m 
是节点 数和弧 数的较 大者， 那么用 这种方 式找岀 所 有节点 对之间 的最小 距离就 要花掉 0  (m  «  log  «) 
的 时间。 此外， 如果 m 接近其 最大值 《2, 就可 以使用 9.8 节 的习题 (4) 中讨论 过的迪 杰斯特 拉算法 
0  («2) 时间 的 实现， 这样 要为每 个节点 对都找 到最小 距离， 就需 要运行 《 次成为 0  («3) 时间 的 算法。 

还有 一种找 岀所有 节点对 之间最 小距离 的算法 —— 弗 洛伊德 算法。 这种算 法要花 0(«3) 的时 
间， 因 此从本 质上讲 不比迪 杰斯特 拉算法 更好， 而 且当弧 的数量 远小于 时要 比前 者更糟 。不 
过， 弗洛 伊德算 法是基 于邻接 矩阵， 而 不是基 于邻接 表的， 它从概 念上讲 要比迪 杰斯特 拉算法 
简单 得多。 

弗洛 伊德算 法的本 质是， 依次将 图的每 个节点 W 作为 枢纽。 当《 是枢 纽时， 我 们会试 着利用 《 
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NODE  u,  v,  w; 

for  (v  =  0;  v  <  MAX;  v++) 

for  (w  =  0;  w  <  MAX;  w++) 
dist  [v]  [w]  =  arc  [v]  [w] ; 
for  (u  =  0;  u  <  MAX;  u++) 

for  (v  =  0;  v  <  MAX;  v++) 

for  (w  =  0;  w  <  MAX;  w++) 

if  (dist  [v]  [u]  +  dist  [u]  [w]  <  dist  [v]  [w] ) 
dist  [v]  [w]  =  dist  [v]  [u]  +  dist  [u]  [w] ; 


作为所 有节点 对之间 的中间 节点， 如图 9-49 所示 。 对每个 节点对 （比 方说是 v 和 w ) 而 _ ， 如果 
弧 v  —  w 和 w  —  w 的标号 的和， 即图 9-49 中的 ， 要小于 当前从 v 到 w 的弧 的标号 /； 那 么就将 尸 
替 换为办 e。 


图 9-49 使 用节点 w 作为 枢纽， 以 改善某 些节点 对之间 的距离 

实现弗 洛伊德 算法的 代码片 段如图 9-50 所示。 和之前 一样， 假 设节点 使用从 0 开始的 整数命 
名， 并且还 是使用 NODE 作为 节点的 类型， 不过这 里要假 设该类 型为整 数或等 价的枚 举类型 。我 
们还要 假设有 的数组 arc, 满足 arc  [v]  [w] 是给定 图中弧 v 4  w 的标 号。 不过， 对 其对角 
线 上所有 的节点 v 来说， 即便 存在弧 V4V， 也有 arc  [v]  [v]  =  0。 原因 在于， 从一个 节点到 
其 自身的 最短距 离总是 0, 而且 我们根 本不希 望沿着 这些弧 行进。 如果 没有从 v 到 w 的弧， 我们 
就让 arc  [v]  [w] 为 INFTY， 就是要 比其他 任意标 号都大 很多的 一个特 殊值。 还有 一个相 似的数 
组 dist, 在其末 端存放 着最小 距离， dist  [v]  [w] 将成为 从节点 v 到节点 w 的最小 距离。 


图 9-50 弗洛伊 德算法 

第⑴ 行到第 (3) 行会将 dist 初 始化为 arc。 第 (4) 行到第 (8) 行构成 了一个 循环， 其中 每个节 
点 w 会依次 被取作 枢纽。 对 各枢纽 《， 在 v 和 w 上的 双重循 环中， 我们 考虑了 每个节 点对。 第 (7) 
行会 测试从 v 经过 W 到达 w 是否 比从 v 直接到 w 更近 ，如果 是这样 ，那 么第 (8) 行 就会将 dist  [v]  [w] 
降 低为从 的距 离及从 t/ 到 w 的距离 之和。 


\ — /  \ — /  \ — /  \ — /  \ — /  \ — /  \ — /  \ — / 

12345678 

- - '  y - \  - - N  / - V  / - \ / - X  / - - - V 
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♦ 示例 9.27 

考 虑一下 9.3 节图 9-10 中的图 。使用 0 到 5 的数 字表示 节点， 其中 0 表示 拉耶， 1 表 示卡内 奥赫， 
等等。 图 9-51 展示了 arc 矩阵， 标号 INFTY 表 示相应 的节点 对之间 没有边 连通。 而 arc 矩 阵也是 
di  st 矩 阵的初 始值。 


沃夏 尔算法 

有 时候， 我们只 对分辨 两个节 点间是 否存在 路径感 兴趣， 而不去 管最小 距离是 多少。 如果 
这样， 就可 以使 用元素 类型为 BOOLEAN  ( 即 int  ) 的邻接 矩阵， 其中 TRUE  (  1  ) 表 示弧的 存在， 
而 FALSE  (  0  ) 表 示弧不 存在。 同样， di  st 矩 阵的元 素也是 BOOLEAN 类 型的， 其中 TRUE 表示问 
题中 已知 的节点 间存在 路径， 而 FALSE 表示 它们之 间不存 在路径 。 我们需 要对弗 洛伊德 算法进 
行的 唯一 修改就 是把图 9-50 中的第 (7) 行和第 (8) 行 替换为 

(7)  if  (dist  [v]  [w]  ==  FALSE) 

(8)  dist  [v]  [w]  =  dist  [v]  [u]  &&  dist  [u]  [w] ; 

如果 dist  [v]  [w] 还不是 TRUE, 只要 dist  [v]  [u] 和 dist  [u]  [w] 都是 TRUE, 这两行 代码就 
会把 它置为 TRUE。 

得 到的算 法名为 沃夏 尔算法 （ Warshall's  Algorithm ), 可以在 (9  («3) 的时间 内为含 《 个 节点的 
图 计算自 反闭包 和传递 闭包。 这一 算法从 来都不 会优 于 9.7 节中 利用了 深度优 先搜 索的 0  _) 
时间的 算法。 不过， 沃 夏尔算 法使用 的是邻 接矩阵 而非邻 接表， 而 且如果 m 接近 《2， 它 实际上 
会因 为其简 单性而 比乘法 的深度 优先搜 索更有 效率。 


请 注意， 图 9-10 中的 图是无 向图， 所以矩 阵是对 称的， 也 就是说 arc[v]  [w]  =arc  [w]  [v] 。 
如果 图是有 向图， 就可能 不存在 这种对 称性， 不过 弗洛伊 德算法 并未利 用到对 称性， 因 此处理 
有 向图或 无向图 都是可 以的。 


0 

1 

2 

3 

4 

5 

0 

0 

24 

INFTY 

INFTY 

INFTY 

28 

1 

24 

0 

11 

INFTY 

INFTY 

INFTY 

2 

INFTY 

11 

0 

13 

INFTY 

INFTY 

3 

INFTY 

INFTY 

13 

0 

20 

12 

4 

INFTY 

INFTY 

INFTY 

20 

0 

15 

5 

28 

INFTY 

INFTY 

12 

15 

0 

图 9-51  arc 矩阵， 它是 dist 矩阵的 初始值 

第一个 枢纽是 M  =  0。 因为 INFTY 与任意 值的和 都是工 NFTY， 所以 唯一的 节点对 V 和 W， 两者 
都不为 w。 而且有 dist  [v]  [u]  +dist  [u]  [w] 小于 INFTY 的节 点对， 就是 v=l 和 w  =  5， 反之亦 
然。 ①因 为此时  dist  [1]  [5] 是 INFTY, 我 们就将  dist  [1]  [  5] 用 dist  [1]  [0]+dist  [0]  [5] 
的和 52 替 换掉。 同样， 要将 dist  [5]  [1] 替换为 52。 其他 距离都 不能借 助枢纽 0 得到 改善， 这样 
一 来就得 到如图 9-52 所示的 dist 矩阵。 


①如果 V 和 W 中有 一个为 就很容 易看出 dist  [V]  [W] 永远不 可能借 助经过 M 而得到 改进。 因此， 在 查找经 过中枢 
W 能够改 进距离 的节点 对时， 可以 忽略那 些形如 (V,  M) 或 (M,  W) 的有 序对。 
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图 9-52 在使用 0 作为枢 纽后的 di  st 矩阵 


现在 以节点 1 作为 枢纽。 在如图 9-52 所示 的当前 dist 矩 阵中， 节点 1 分 别存在 到节点 0  ( 距 
离 24)、 节点 2  ( 距离 11  ) 和节点 5  (距离 52) 的 非无限 连接。 我 们可以 将这些 边组合 起来， 从而 
将节点 0 到节点 2 的 距离从 INFTY 减少到 24+11  =  35。 还可以 把节点 2 和节点 5 之间 的距离 减少到 
11+52  =  63。 请 注意， 63 是从 檀香山 到卡内 奥赫， 然后到 拉耶， 最后 到瓦西 阿瓦的 路径的 距离， 
不 过这一 最短路 线只经 过了目 前已经 成为过 枢纽的 节点。 最终， 我 们会发 现经过 珍珠城 的更短 
路线。 当前的 dist 矩 阵如图 9-53 所示。 
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图 9-53 在使用 1 作为枢 纽后的 dist 矩阵 

现在用 2 作为 枢纽。 节点 2 当前 与节点 0  ( 距离 35  )、 节点 1  ( 距离 11  )、 节点 3  ( 距离 13  ) 和 
节点 5  ( 距离 63) 之 间存在 非无限 连接。 在 这些节 点中， 节点 0 和节点 3 之 间的距 离可以 改善为 
35+13  =  48, 而 且节点 1 和节点 3 之 间的距 离可以 改善为 11+13  =  24。 因此， 当前的 dist 矩阵 
如图 9-54 所示。 
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图 9-54 使 用节点 2 作为枢 纽后的 dist 矩阵 


接 下来， 节点 3 成为 枢纽。 图 9-55 展示 了节点 3 与 其他各 节点之 间当前 的最佳 距离。 ® 通过行 
经节点 3, 可 以作岀 如下距 离上的 改善。 

(1) 节点 1 和节点 5 之间地 距离被 减小到 36。 


① 读者应 该将图 9-55 与图 9-49 加以比 较。 后者展 示了如 何在有 向图的 一般情 况下使 用枢纽 节点， 其 中进出 枢纽节 
点的弧 可能有 着不同 标号。 而图 9-55 则利用 了示例 图的对 称性， 让 我们使 用节点 3 与 其他各 节点之 间的边 来表示 
进 人节点 3 的弧， 就像图 9-49 左侧 那样， 以及 从节点 3 出发 的弧， 就像图 9-49 右侧 那样。 
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(2)  节点 2 和节点 5 之间的 距离被 减小到 25。 

(3)  节点 0 和节点 4 之间 的 距离被 减小到 68。 

(4)  节点 1 和节点 4 之间 的 距离被 减小到 44。 

(5)  节点 2 和节点 4 之间的 距离被 减小到 33。 


当前的 di  st 矩 阵如图 9-56 所 7K。 
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图 9-56 使 用节点 3 作为枢 纽后的 dist 矩阵 

使 用节点 4 作 为枢纽 不能改 善任何 距离。 当节点 5 作为枢 纽时， 我们 可以改 善节点 0 和节点 3 
之间的 距离， 因 为在图 9-56 中有 

dist  [0]  [5]  +  dist  [5]  [3] 二 40 

这 要小于 dist  [0]  [3] 的值 48。 就具体 的城市 而言， 这就 相当于 发现， 从拉 耶出发 经过瓦 
西阿 瓦到珍 珠城， 要 比经过 卡内奥 赫和檀 香山到 珍珠城 更近。 同样， 可以 把节点 0 和节点 4 之间 
的 距离从 68 改善到 43。 最终的 dist 矩 阵如图 9-57 所示。 
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图 9-57 最终的 dist 矩阵 
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9.9.1 弗 洛伊德 算法为 何奏效 

正 如我们 所见， 在 弗洛伊 德算法 的任何 阶段， 从节点 V 到节点 W 的距离 都将是 只由做 过枢纽 
的节 点组成 的路径 中最短 路径的 距离。 最终， 所有的 节点都 成为过 枢纽， 而且 dist[v]  [W] 存 
放着 所有可 能路径 的最小 距离。 

我们可 以将 从节点 V 到节点 W 的^: 路径 定义为 满足从 V 到 W 的中 间节 点编号 不大于 A 的路径 。请 
注意， 并不需 要限制 V 或 W —定 是&或 更小。 

灸=-1 的 情况是 个重要 特例。 因为 假设节 点的编 号是从 0 开 始的， 所以 (-1) 路 径是没 有中间 
节 点的。 它只可 能是一 条弧， 或 是作为 0 长 度路径 起止点 的一个 节点。 

图 9-58 展示了 A 路径的 样子， 不 过端点 v 和 w 既可 以在& 之上， 也可 以在& 以下。 在 该图中 ，线 
的 高度表 示了从 v 到 w 的路 径上各 节点的 编号。 


编 号髙于 & 的节点 


\  编号 低于々 的节点 
\ 


图 9-58 除 了端点 （可 能高于 灸） 夕卜， 姑各径 上的节 点不会 高于灸 


♦ 示例 9.28 

在图 9-10 中， 路径 0、 1、 2、 3 是一条 2 路径。 中 间节点 1 和 2 都 不大于 2。 这一路 径也是 3 路径， 
4 路径和 5 路径。 但 它不是 1 路径， 因为中 间节点 2 大于 1。 同样， 它 也不是 0 路径或 (-1) 路径。 

因为 假设节 点的编 号是从 0到《-1， 所以 (-1) 路径 不可能 有中间 节点， 因此它 一定是 一条弧 
或一个 节点。 而《_1 路径 则可以 是任意 路径， 因为 在节点 编号为 0到《-1 的 图中， 任何路 径中间 
节点的 编号都 不会大 于《-  1。 这里将 通过对 A 的归纳 证明该 命题。 

命题 况幻。 如果弧 的标号 都是非 负的， 那 么在图 9-50 第 (4) 行到第 (8) 行的 循环将 w 置为奸 1 之 
前， dist  [v]  [w] 是从 v 到 w 的最短 A 路径的 长度， 如 果没有 这样的 路径， 其长 度就是 INFTY。 

依据。 依据是 &  =  - 1。 我们 在第一 次执 行该 循环的 循环体 之前将 w 置为 0。 在 第⑴行 到第 (3) 行 
中我们 已经把 dist 初 始化为 arc。 因 为由一 个节点 构成的 弧和路 径只有 (-1) 路径， 所 以依据 成立。 

归纳。 假设况 幻 成立， 考虑 w  =  A+1 时 循环迭 代期间 dist  [v]  [w] 发生的 情况。 假设/ > 是从 v 
到 w 的 最短奸 1 路径。 有两种 情况， 具体 取决于 P 是否 经过奸 1 号 节点。 

(1) 如果 P 是& 路径， 也 就是说 P 其 实没有 经过奸 1 号 节点， 那么根 据归纳 假设， 在 经过衫 欠迭 
代之后 dist  [v]  [w] 已经等 于尸的 长度。 因 为没有 更短的 (奸 1) 路径， 所 以我们 在以奸 1 号 节点为 
枢纽的 这轮处 理中不 能改变 dist  [v]  [w] 。 
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(2) 如果 尸是奸 1 路径， 我 们可以 假设尸 只经过 节点奸 1  一次， 因 为环路 永远都 不可能 减少距 
离。 回想 一下， 我们 要求所 有标号 都是非 负的。 因此， 尸 是由从 v 到节 点杆 1 的 战各径 0， 后面跟 
上从 节点奸 1 到 w 的 A 路径 i? 组 成的， 如图 9-59 所示。 根 据归纳 假设， dist  [v]  [k+1] 和 
dist  [k+1]  [w] 分 别是在 第啟迭 代之后 路径 0 和 i? 的 长度。 

峨径 e  mm 


图 9-59  (奸 1) 路径可 以分为 两条々 路径， g 后 面跟上 i? 

首先 要看到 dist  [v]  [k+1] 和 dist  [k+1]  [w] 在第 奸1 次 迭代中 不可能 改变。 原因 在于所 
有 的标号 都是非 负的， 这样所 有路径 的长度 都是非 负的， 因此图 9-50 中第 (7) 行的 测试在 w  (即节 
点 A+1  ) 是 V 或 W 其中 之一时 一定会 失败。 

所以， 当 我们以 W  = 奸1 对 任意的 V 和 W 应用第 行的测 试时， 自从 第衫欠 迭代结 束之后 
dist  [v]  [k+1] 和 dist  [k+1]  [w] 的值 就不再 改变。 也就 是说， 第⑺行 的测 试会 对最短 路径的 
长 度及从 v 到 奸1 和奸 1 到 w 的最短 紐各径 长度之 和进行 比较。 在第 (1) 种情 况下， 路径 P 不经 过奸 1， 
前者 更短， 而 在情况 (2) 中， 尸经 过奸 1， 后 者是图 9-59 中路径 0 和路径 i? 长度 之和， 因此要 更短。 

可 以得出 结论： 第奸 1 次迭 代会把 dist  [v]  [w] 置为 对所有 的节点 言 最短奸 1 路径的 
长度。 这 就是命 题况奸 1)， 所 以我们 得出了 归纳的 结论。 

要 完成证 明， 设 &  =  也 就是说 ， 我们知 道在完 成全部 《次 迭代 后， dist  [v]  [w] 是任意 

从 v 到 州的《-1 路径 的最短 距离， 这样就 证明了 dist[v]  [w] 是从 v 到 w 的任意 路径中 最小的 距离。 

9.9.2  习题 

(1)  假设图 9-5  (见 9.2 节 习题） 中所有 的弧标 号都为 1， 使用 弗洛伊 德算法 得岀各 节点对 间最短 路径的 
长度。 给岀以 每个节 点作为 枢纽后 的距离 矩阵。 

(2)  对图 9-5 中的 图应用 沃夏尔 算法， 计 算其自 反闭包 和传递 闭包。 给岀以 每个节 点作为 枢纽后 的可达 
性 矩阵。 

(3)  使 用弗洛 伊德算 法为图 9-21  (见 9.4 节 习题） 中的 图找到 各城市 对之间 的最短 距离。 

(4)  使 用弗洛 伊德算 法为图 9-48  ( 见 9.8 节 习题） 中的各 灵长类 物种找 岀它们 之间可 能间隔 的最短 时间。 

(5)  有 时我们 想只考 虑有一 条或多 条弧的 路径， 而 将单个 节点排 除在弧 的范畴 之外。 如 何修改 arc 矩 
阵的 初始化 部分， 使得在 查找从 节点到 其自身 的最短 路径时 只考虑 长度为 1 或 1 以上的 路径？ 

(6) * 找岀图 9- 10 中所有 的无环 2 路径。 

(7)  * 为 什么当 弧上的 正负开 销都存 在时弗 洛伊德 算法就 不起作 用了？ 

(8)  ** 给 岀能找 到两个 给定节 点间最 长无环 路径的 算法。 

(9)  ** 假 设对图 G 运行弗 洛伊德 算法。 然后， 我们将 弧1/41 的标 号降为 0, 以构 建新图 G'。 当对图 G 
和图 G' 应 用弗洛 伊德算 法时， 怎样 的节点 s 和 (组 成的节 点对会 使每一 轮处理 中对应 的两个 
dist  [s]  [  t] 都相 同？ 

9.10 图 论简介 

图 论是专 门研究 图属性 的数学 分支。 在之 前的几 节中， 我们已 经展示 了图论 的基本 定义， 
以及计 算机科 学家开 发的一 些可以 高效计 算图关 键属性 的基础 算法。 我们 已经看 到计算 最短路 
径、 生成树 和深度 优先搜 索树的 算法。 本节 要介绍 图论中 一些更 重要的 概念。 
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9.10.1 完全图 


每 一对不 同的节 点之间 都存在 边的无 向图就 叫作完 全图。 含《 个节 点的完 全图就 叫作& 。图 
9-60 展示 了从足 的完 全图。 


图 9-60 前 4 个 完全图 


; 中的边 数是咖 -1)/2, 或 者说是 Q。 想知道 原因， 可以 考虑& 的边 0， v}。 可以选 择《 

个 节点中 的 任意一 个作为 W ， 并从其 余《-1 个 节点中 任选一 个作为 V ， 因 此总 的选 择数为 《(«-1)。 
不过， 这 样一来 每条边 都数了 两次， 一次是 {«， V}， 第 二次是 {V， 《}， 所 以必须 在总选 择数上 
除以 2, 以得出 正确的 边数。 

也存在 完全有 向图的 定义。 这种 图具有 从每个 节点到 每个其 他节点 （包 括其 自身） 的弧。 《 
个节点 的完全 有向图 有《2 条弧。 图 9-6 1 展示了 含 3 个节点 和 9 条弧 的 完全有 向图。 


图 9-61 含 3 个节点 的完全 有向图 


9.10.2 平面图 

如 果可以 将无向 图的所 有节点 都放在 一个屏 幕上， 而且 可以将 它的边 画为连 续的线 而没有 
边 交叉， 就说 该无向 图是平 面图。 

♦ 示例 9.29 

图 9-60 中的 在画岀 来时有 两条相 交的对 角边。 不过， 是平 面图， 正如 我们看 到的图 9-62 
中这 种画法 一样。 在图 9-62 中， 通过重 新把一 条对角 边画在 外面， 就避免 了两条 边相交 的情况 
岀现。 可 以说图 9-62 是图 足4 的平面 表示， 而图 9-60 则是图 足4 的 非平面 表示。 请 注意， 在 平面表 
示 中边可 以不是 直线。 
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在图 9-63 中看 到两种 最简单 的非平 面图， 也就 是没 有任何 平面表 7K 的图。 一 '个是 足5， 有 5 
个节 点的完 全图。 而另 一个是 足3,3, 它的 形成方 式是， 取两组 3 个 节点， 并 用一组 的各个 节点与 
另一 组的各 个节点 连接， 但不 连接同 组中的 节点。 读 者应该 试着重 画这两 种图， 看看有 没有办 
法使 得任意 两条边 都不会 交叉， 以 感受一 下它们 为什么 不是平 面图。 


Kb  Ks,3 

图 9-63 两 种最简 单的非 平面图 

库 拉托斯 基定理 说过， 任 何非平 面图都 至少含 有这两 种图中 一种的 “副 本”。 不过， 我们在 
解 释副本 的概念 时一定 要小心 一点， 因为 要在任 意的非 平面图 G 中找到 & 或 足3,3的 副本， 可能必 
须 要将图 9-63 所示 的某些 边与图 G 中的路 径关联 起来。 

9.10.3 平面性 的应用 

平面 性在计 算机科 学中是 举足轻 重的。 例如， 很 多图或 相似的 图表需 要在计 算机屏 幕或纸 
上表现 岀来。 为 了清楚 起见， 是 需要制 岀图的 平面表 示的， 或者 如果图 不是平 面图， 就 需要尽 
可能 减少交 叉边的 数量。 

读 者可能 会在第 13 章 中看到 我们画 的一些 相当复 杂的电 路图， 它们其 实就是 以门和 线路连 
接点为 节点而 且以线 路为边 的图。 因为 这些电 路一般 而言都 不是平 面的， 所以必 须制定 一些约 
定， 让 线路可 以在不 连接的 情况下 交叉， 而 且用点 来表示 线路的 连接。 

相关的 应用涉 及集成 电路的 设计。 集成 电路， 或者说 “芯 片”， 把第 13 章中讨 论过的 那些逻 
辑电路 都实物 化了。 它们不 需要逻 辑电路 被刻画 为平面 表示， 但存 在相似 的限制 让我们 可以为 
边指 定若干 “ 层”， 通常是 3 或 4 层。 在第一 层上， 表示 电路的 图必须 有平面 表示， 边是不 允许有 
交 叉的。 不过， 不同 层级上 的边是 可以交 叉的。 

9.10.4 图着色 

为图 G 着色 的图 着色问 题就是 给每个 节点指 定一种 “颜 色”， 使 得由边 连通的 两个节 点不会 
被指定 相同的 颜色。 然 后我们 可能要 问以这 种方式 为图着 色需要 多少种 不同的 颜色。 为图 G 着 
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色所 需的最 小颜色 数量就 叫作图 G 的色数 （ chromatic  number  )， 通常 表示为 J(G)。 可以 用不超 
过 灸种颜 色着色 的图被 称为可 着 色的。 

♦ 示例 9.30 

如果 图是完 全图， 那么它 的色数 就等于 节点的 数量， 也就 是说; r (欠 „)  =  « 。 要 证明这 一点很 
简单， 因为 任意两 个节点 W 和 V 之间 都是 有边连 通的， 所 以不可 能为它 们着上 相同的 颜色。 因此， 
每个 节点都 要有其 自己的 颜色。 对每个 & 而言， &都 是可着 & 色的， 不 过如果 &<«， 贝 不 
是可着 A 色的。 请 注意， 可以说 ^4 是可着 5 色的， 即便没 法为图 足4 的 4 个节 点用 上所有 5 种 颜色。 
然而， 严格 地讲， 只要 图可以 用谢1 或更少 的颜色 着色， 而 不是说 刚好可 用&种 颜色 着色， 就可 
以说图 是可着 A: 色的。 

再举个 例子， 图 9-63 所 示的图 [3, 3的 色数为 2。 比 方说可 以把左 边组中 的节点 全着上 红色， 
而 将右边 那组中 的节点 全着上 蓝色。 那 么所有 的边都 是在红 色和蓝 色节点 间的。 &，3 就 是二分 
图 （bipartite  graph) 的 例子， 也就是 可以用 两种颜 色着色 的图。 所 有这样 的图都 可以把 它们的 
节 点分成 两组， 其中 同一组 的成员 间是没 有边连 接的。 

最后 再举个 例子， 图 9-64 中 6 节 点图的 色数为 4。 要知道 原因， 可以注 意到中 心的节 点不能 
与其他 任何节 点颜色 相同， 因为 它与所 有节点 都是连 通的。 因 此要为 它单独 使用一 种颜色 ，比 
方说 红色。 我们还 至少需 要两种 别的颜 色来为 环上的 节点着 色。 不过， 如果 我们试 着像图 9-64 
中所 做的那 样交替 着色， 比 方着上 蓝色和 绿色， 就 会遇到 问题， 第 五个节 点的邻 居既有 蓝色也 
有 绿色， 因此这 个例子 中就需 要第四 种颜色 —— 黄色。 


9.10.5 图着色 的应用 

找岀 一种好 的图着 色方案 是计算 机科学 中另一 个热门 问题。 例如， 在第 1 章的 全书内 容简介 
中， 我 们考虑 过将课 程分配 到时间 段中， 从而使 学生不 可能选 到同一 时段上 课的两 门课程 。这 
样做 的动机 是在安 排期末 考试时 保证学 生不可 能在同 一时间 需要参 加两科 考试。 我们可 以画一 
幅节 点是各 门课程 的图， 其中如 果有学 生同时 选修了 某两门 课程， 在表示 这两门 课程的 节点间 
就存 在边。 

这样 一来， 需要 多少个 时段来 安排考 试的问 题就成 了计算 该图的 色数是 多少的 问题。 所有 
颜 色相同 的节点 都可以 被安排 在同一 时段， 因为 它们之 间不存 在边。 反过 来讲， 如果有 一套对 
任 何学生 来说都 不会引 起时间 冲突的 安排， 那 么就可 以把所 有可安 排在同 一时段 的课程 涂成相 
同的 颜色， 因此就 生成了 一种颜 色数量 与考期 时段数 相同的 图着色 方案。 

在第 1 章中， 我 们试探 过基于 寻找最 大独立 集安排 考试的 方法。 这对寻 找为图 着色的 好方案 
来说也 是一种 合理的 试探。 大家 可能会 期待可 以为小 到像图 1-1 中 5 节点图 那样的 图尝试 所有可 
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能的 颜色， 其实 这是可 以的。 不过， 随着节 点数的 增加， 图可 能着色 的种数 是呈指 数式增 加的， 
而且， 在找 寻最少 可能颜 色的过 程中， 为 那些非 常大的 图考虑 所有可 能的着 色并不 可行。 

9.10.6 团 

无向图 G 的团 （ clique  ) 是 G 中满足 每对节 点之间 都存在 边的所 有节点 组成的 集合。 含 A 个节 
点的团 就叫作 灸点团 （ 々-clique  )。 图 中 最大团 的大 小就叫 作该图 的团数 （ clique  number  )Q 

♦ 示例 9.31 

举个 简单的 例子， 任意 完全图 都是 由全部 〃个节 点组成 的团。 事 实上， 对 所有的 &<«来 
说， ； 都有& 点团， 但如果 &>«， 则没有 A 点团。 

图 9-64 中 的图有 大小为 3 的团， 但没有 更大的 团了。 这些 3 点团都 是三角 形的。 因为 没法再 
将 其他节 点纳入 环中， 所以该 图中不 可能有 4 点团。 每个环 节点都 只连接 到其他 3 个 节点， 所以 4 
点团 必定会 包含环 上的某 个节点 V、 它在 环上的 邻居， 以 及中心 节点。 不过， v 在 环上的 邻居之 
间没 有边， 所 以没有 4 点团。 

举 个团的 应用的 例子， 假设 不像图 1-1 那 样表示 课程的 冲突， 而 是用两 个节点 之间的 边表示 
这两 门课程 没有学 生同时 选择。 如此， 两 门有边 连接的 课程可 以在同 一时间 考试。 然后 我们可 
以查找 极大团 （maximal  clique), 即 不是更 大的团 的子集 的团， 而 且要为 同时段 课程的 极大团 
安排 考试。 

9.10.7 习题 

(1)  对图 9-4 中的图 而言： 

(a)  色数是 多少？ 

(b)  团数是 多少？ 

(c)  给岀 一个最 大团的 例子。 

(2)  如果将 (a) 图 9-5;  (b) 图 9-26 中的图 变成无 向图， 那么它 们的色 数各是 多少？ 可 将弧当 作边。 

(3)  图 9-5 不是 用平面 方式表 示的。 该图是 否为平 面图？ 也就 是说， 能 否重画 该图， 从而 使该图 中没有 
交叉 的边？ 

(4)  *与 无向图 相关的 3 个量 分别是 它的度 （任 意节 点的最 大邻居 数）、 它 的色数 和它的 团数。 推导这 
3 个量 之间一 定成立 的不等 关系。 并解 释这些 关系为 何一定 成立。 

(5)  ** 设计 算法， 接受含 n 个的 节点 而且节 点数和 边数较 大者为 m 的图， 并在 0(w) 的时 间内能 分辨该 
图是否 为二分 图 （ 可着 2 色的 图）。 

(6)  * 我们可 以把图 9-64 中的 图一般 化为具 有一个 中心节 点以及 &个 在同一 环上的 节点， 其中环 上的每 
个 节点都 只与其 在环上 的邻居 以及中 心节点 相连。 给岀 该图的 色数， 用 A 的函数 表示。 

(7)  * 对像在 9.5 节中 讨论过 的那样 的无序 无根树 的色数 有什么 说法？ 

(8)  ** 设 是 取一组 / 个节 点以 及另一 缉/个 节点， 并 把一组 中各个 节点和 另一组 中的每 个节点 用边连 
接 后形成 的图。 我们看 到如果 /  =3, 那 么得到 的图就 不是平 面图。 那 么对什 么样的 / 和/ 来说& ； 
是平 面图？ 

9.11 小结 

图 9-65 中的表 对我们 在本章 中解决 的各种 问题、 解 决这些 问题的 算法， 以及 这些算 法的运 
行时间 进行了 总结。 在该 表中， 《 是图 中的节 点数， 而 m 是图 中节点 数与弧 （边） 数之间 的较大 
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者。 除 非另外 标明， 否则 假设图 是由邻 接表表 示的。 


问  题 

算  法 

运 行时间 

最小 生成树 

克 鲁斯卡 尔算法 

0(m  log  n) 

检 测环路 

深度优 先搜索 

O(m) 

拓 扑排序 

深度优 先搜索 

O(m) 

单一源 可达性 

深度优 先搜索 

O(m) 

连 通分支 

深度优 先搜索 

O(m) 

传 递闭包 

« 次 深度优 先搜索 

O(mn) 

单 一源最 短路径 

使用偏 序树实 现的迪 杰斯特 拉算法 

0(m  \ogn) 

使用 9.8 节习题 (4) 实现 的迪 杰斯特 拉算法 

0(n2) 

所 有节点 对的最 

« 次利用 使用偏 序树实 现的迪 杰斯特 拉算法 

0{mn  log«) 

短路径 

« 次利 用使用 9.8 节习题 (4) 实 现的迪 杰斯特 拉算法 

0(n3) 

利用 使用邻 接矩阵 表示的 弗洛伊 德算法 

0(«3) 

图 9-65 图算法 的总结 

除此 之外， 我们还 为读者 介绍了 图论中 最关键 的一些 概念， 包括： 

□ 路径 和最短 路径； 

□ 生 成树； 

□ 深度 优先搜 索树和 森林； 

□ 图 着色和 色数； 

□ 团和 团数； 

□ 平 面图。 
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第 10 章 

模式、 自动机 和正则 表达式 


模式是 具有某 个可识 别属性 的对象 组成的 集合。 字符串 集合就 是一类 模式， 比如 C 语言 合法标 
识符的 集合， 其中 每个标 识符都 是个字 符串， 由 字母、 数字和 下划线 组成， 开 头为字 母或下 划线。 
另一个 例子是 由只含 0 和 1 的 给定大 小数组 构成的 集合， 读字符 的函数 可以将 其解释 为表示 相同符 
号。 图 10-1 就 展示了 全都可 以解释 为字母 A 的 3 个 7x7 数组。 所有 这样的 数组就 可以构 成模式 “A”。 
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图 10-1 模式 “A” 的 3 个实例 

与 模式相 关的两 个基本 问题是 它们的 定义与 它们的 识别， 这 是本章 以及第 11 章 的主题 。模 
式的 识别是 诸如图 10-1 所示的 光学字 符识别 (  Optical  Character  Recognition,  OCR) 这样 的任务 
中 不可或 缺的一 部分。 在 某些应 用中， 程序 中模式 的识别 是编译 过程， 也 就是将 程序从 一种语 
言 （ 比方说 C 语言） 翻译 成另一 种语言 （ 比 如机器 语言） 的过 程的一 个重要 部分。 

模式 应用在 计算机 科学中 还有其 他很多 例子。 模 式在设 计用于 组成计 算机和 其他数 字设备 
的电子 电路的 过程中 扮演着 关键的 角色。 它们 也可以 用在文 本编辑 器中， 让我们 可以查 找特定 
单 词或特 定字符 串集合 的实例 ，比如 “字母 if 之 后跟着 任意由 then 开头的 字符序 列”。 大多数 
操作 系统允 许用户 在命令 中使用 模式， 例如， UNIX 命令 “Is  *tex” 就 会列出 所有以 3 字符序 
列 “tex” 结尾的 名称。 

人们围 绕着模 式的定 义和识 别建立 起了一 套庞大 的知识 体系。 这 一理论 被称为 “自 动机理 
论”或 “ 语言理 论”， 而 其基本 定义和 技术都 是计算 机科学 的核心 部分。 

10.1 本章主 要内容 

本章处 理的是 由字符 串集合 组成的 模式， 我 们在本 章中将 会学习 以下 内容。 

□  “有 限自动 机”是 一种基 于图的 模式指 定方式 。有 限自动 机又分 为两种 ：确定 自动机 （ 10.2 
节） 和非确 定自动 机 （ 10.3 节)。 
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□ 可以用 简单的 方法把 确定自 动机转 换成识 别其模 式的程 序 （ 10.2 节)。 

□ 可 以利用 10.4 节 介绍的 “子集 构造” ，把非 确定自 动机转 换成识 别相同 模式的 确定自 动机。 

□ 正 则表达 式是种 代数， 用来描 述可由 自动机 描述的 同类模 式 （ 10.5 节到 10.7 节)。 

□ 正则表 达式可 转换为 自动机 （ 10.8 节）， 反之亦 然 （ 10.9 节)。 

我们还 要在第 11 章中 讨论串 模式， 其中会 引入一 种名为 “上下 文无关 文法” 的递归 表示法 
来定义 模式。 我们 将看到 这种表 示法可 以描述 没法用 自动机 或正则 表达式 表示的 模式。 不过， 
在 很多情 况下， 文法都 不如自 动机或 正则表 达式那 样容易 转换为 程序。 

10.2 状 态机和 自动机 

用 来查找 模式的 程序通 常有着 特殊的 结构。 我们可 以在代 码中确 定某些 位置， 在这 些位置 
可以得 知与程 序寻找 模式实 例的过 程有关 的特殊 信息。 我们将 这些位 置称为 状态。 而程 序的整 
体行 为可以 视作程 序随着 读人输 入从一 种状态 转移到 另一种 状态。 

要让这 些概念 变得更 具体， 可 以考虑 一个具 体的模 式匹配 问题： “哪些 英语单 词按次 序含有 
5 个 元音字 母？” 要回 答这一 问题， 可以 使用很 多操作 系统中 都能找 到的单 词表。 例如， 在 UNIX 
系统 中可以 在文件 /usr/dict/words 中找 到这样 的表， 表中 每一行 都含有 一个常 用单词 。在 
该文 件中， 一 些含多 个元音 字母的 单词是 按以下 次序排 列的： 

abstemious 

facetious 

sacrilegious 

我 们来编 写一个 简单的 C 语言 程序， 检 查某个 字符串 并确定 5 个 元音字 母是否 按次序 出现在 
该字符 串中。 从 字符串 的开头 开始， 该程序 首先会 查找到 a。 我们会 说该程 序处于 “状态 0”， 直 
到它发 现一个 a， 然后它 就进入 “状态 1”。 在状态 1 中， 它会查 找字母 e， 而且当 它找到 一个之 
后， 就 会进入 “状态 2”。 该程序 会继续 按照这 种方式 运行， 直至 到达查 找字母 u 的 “状态 4”。 如 
果 它找到 II， 那么该 单词就 是按次 序含有 5 个元音 字母， 这个 程序就 能进入 一个用 于接受 的“状 
态 5  “。 不需 要再扫 描单词 的其余 部分， 因 为已经 可知， 不管 II 后面 有哪些 字母， 该单词 都是满 
足条 件的。 

可以 这样解 释状态 /， 就是对 /  =  0、 1、 …、 5, 程序 已经按 次序遇 到了前 / 个元 音字母 。这 6 
个状 态总结 了程序 在从左 到右扫 描其输 入的过 程中需 要记住 的所有 内容。 例如， 在状态 0 中 ，尽 
管 该程序 在查找 a， 但它 不需要 记住是 否已经 看到了 e。 原 因在于 这样的 e 不 可能先 于任何 a ， 因 
此 不能作 为序列 aeiou 中的 e。 

这种 模式识 别算法 的核心 是图 10-2 中的 findChar  (pp,  c) 函数 。该 函数的 参数是 pp - 指 

向字 符串的 指针的 地址， 以 及所需 的字符 c。 也就 是说， pp 是 “指向 指向字 符的指 针的指 针”。 
函数 findChar 会查 找字符 c， 并 且顺便 会移动 已给定 地址的 指针， 直到 该指针 指向超 过字符 c 
或该串 结尾的 位置。 它返回 BOOLEAN 类型 的值， 就是 我们定 义的与 int 相同的 类型。 正如在 1.6 
节中 讨论过 的， 我 们预期 BOOLEAN 类型的 值只有 TRUE 和 FALSE, 它们 分别被 定义为 1 和 0。 

在第 (1) 行， findChar 会检查 当前由 pp 指示的 字符。 如果 它既不 是所需 的字符 c， 也不是 
C 语 言中标 记字符 串末端 的字符 “\0”， 那 么在第 (2) 行我们 会移动 pp 指向 的该 指针。 第 (3) 行的 
测试 会确定 我们是 否因为 遍历完 该串而 停止。 如 果是， 就返回 FALSE, 否则前 移该指 针并返 
回 TRUE。 


10.2 状 态机和 自动机  429 


#include  <stdio.h> 

#define  TRUE  1 
#define  FALSE  0 
typedef  int  BOOLEAN ; 

BOOLEAN  f indChar (char  **pp,  char  c) 

{ 

while  (**pp  !=  c  &&  **pp  !=  >  \o  ' ) 

(*pp)++; 

if  (**pp  ==  ’\0’） 
return  FALSE; 
else  { 

(*pp)++; 

return  TRUE; 


BOOLEAN  testWord(char  *p) 

{ 

/* 状态 0  */ 

if  (f indChar (&p ,  '  a  丨 ） ） 

/* 状态 1  */ 

if  (findChar(&p, 丨  e  丨 ） ） 

./* 状态 2  */ 

if  (f indChar (&p,  'i' ) ) 

/* 状态 3  */ 

if  (f indChar (&p,  1  o  ' ) ) 

/* 状态 4  */ 

if  (f indChar (&p,  '  u  ' ) ) 

/* 状态 5  */ 
return  TRUE; 

return  FALSE; 

> 

main() 

{ 

printf  ( "70d\n"  ,  testWord("abstemious") ) : 
} — 


图 10-2  找 到带有 子序列 aeiou 的单词 

在图 10-2 中， 接 下来是 teStWord(p) 函数， 它可以 区分由 p 指向 的字 符串是 否按次 序含有 
所 有元音 字母。 该函 数在第 ⑺ 行前 从状态 0 开始。 在该 状态中 它在第 (7) 行调用 findChar， 其 
中 第二个 参数是 a， 用来查 找字母 a。 如果它 找到了 a,  f indChar 就 会返回 TRUE。 因此 在第⑺ 
行如果 f indChar 返回了 TRUE， 程序就 会转移 到状态 1， 其 中在第 (8) 行会对 e 进行相 似的 测试， 
从 第一个 a 之后 开始扫 描该字 符串。 因 此它会 继续查 找元音 字母， 直到第 (12) 行， 如果它 找到了 
字母 u， 就 会返回 TRUE。 如 果有任 何一个 元音字 母未被 找到， 控制权 就会转 移到第 (13) 行， 在 
该行中 testWord 会返回 FALSE。 

第 C14) 行的 主程序 会测试 特定的 字符串 “abstemious”。 在实 践中， 我们可 能会对 文件中 
的所有 单词反 复使用 testWord, 以 找出那 些按次 序含有 5 个元音 字母的 单词。 

10.2.1 状 态机的 图表示 

我们可 以把图 10-2 中这种 程序的 行为用 图表示 岀来， 其中 图的节 点表示 该程序 的各个 状态。 


\ /  \ /  \ /  \ /  \ — /  \ — - / 

12  3  4  5  6 

/ — - \  / ― \  / \  / - \  / _ V  / _  V 


7  8  9  0 

/ /IV  /IV  1 


2  3 
一 — -  1± 


14) 
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更重要 的可能 在于， 可以通 过设计 图从而 设计出 程序， 并 机械化 地将图 转化成 程序， 要 么自己 
动 手做， 要么利 用某种 为这个 目的编 写的程 序设计 工具。 

表示 程序状 态的图 都是有 向图， 它们 的弧都 是用字 符集标 记的。 如果 当我们 在状态 s 时， 刚 
好只 有当看 到集合 C 中的 一个 字符时 才能行 进到状 态?， 就存在 从状态 S 到状 态? 的标 号为 字符集 C 
的弧。 这 些弧叫 作转换 （transition)。 如果 jc 是 字符集 C 中的 某个 字符， 它标 记了从 状态邊 J 状态? 
的 转换， 就说 “进行 了针对 X 的到状 态啲转 换”。 在集合 C 为单 元素集 如 这种 常见的 情况下 ，我 
们 会使用 X 作为 该弧的 标号， 而不用 {jc}。 

我们还 会给某 些节点 标记接 受状态 （ accepting  state  )。 当到达 这些状 态之 一时， 就找 到了模 
式并要 “接受 ”它。 按照 惯例， 接受 状态是 用双层 圆圈表 示的。 最后， 这 些节点 之一会 被指定 
为起始 状态， 也就 是开始 模式识 别过程 所在的 状态。 我们用 一条不 知道来 自何方 的进入 箭头表 
示起始 状态。 这样 的图就 被称为 有限自 动机， 或 就叫自 动机。 在图 10-3 中 可以看 到自动 机的一 
个 例子。 


起始 


图 10-3 识别含 子序列 aeiou 的字符 序列的 自动机 

从概念 上讲， 自动机 的行为 其实很 简单。 可以 想象， 自 动机接 收一列 已知字 符作为 输入序 
列。 它从 起始状 态开始 读输人 序列的 第一个 字符。 根据 第一个 字符的 不同， 它进 行的转 换可能 
是转换 到同一 状态， 也可能 是转换 到另一 状态。 这种转 换可用 自动机 的图来 表示。 然后 自动机 
会读 第二个 字符， 并作出 合适的 转换， 等等。 

♦ 示例 10.1 

对应图 10-2 中 testWord 函数 的自动 机如图 10-3 所示。 在该 图中， 我们 使用了 下面都 要遵守 
的一个 约定， 用希 腊字母 A  (拉 姆达） 代 表所有 大写字 母和小 写字母 组成的 集合。 还要用 A-a 
这 样的简 写形式 表示除 a 之外所 有大小 写字母 组成的 集合。 

节点 0 是起始 状态。 针 对除了 a 之外 的任意 字母， 我们 都会保 持状态 0, 不 过遇到 a 就 要进人 
状态 1。 同样， 一旦到 达状态 1， 就 会停留 在状态 1， 除 非看到 e， 在看到 e 的情况 下就要 进人状 
态 2。 接 下来， 当看到 i 然后 看到 o 时就 分别到 达状态 3 和状态 4。 除 非看到 u 并进人 唯一的 接受状 
态 状态 5, 否 则我们 会停留 在状态 4 中。 再没 有任何 从状态 5 出 发的转 换了， 因 为我们 不再检 
测待 测单词 的其余 字符， 而是 要返回 TRUE, 声明我 们已成 功完成 测试。 

在状态 0 到状态 4 中遇 到空白 （或 其他 非字母 字符） 也是 没有价 值的， 我们不 会进行 任何转 
换。 在 这种情 况下， 处理会 停止， 而且， 因为 我们现 在未到 达接受 状态， 所以会 拒绝该 输入。 

♦ 示例 10.2 

接下 来的例 子来源 于信号 处理。 这里 不再把 所有字 符作为 自动机 可能接 收到的 输入， 而是 
只允 许输人 0 和 1。 我 们要设 计的 这种特 殊自动 机有时 也称为 反弹过 滤器 ( bounce  filter  ), 它接受 
0 和 1 组 成的序 列作为 输人。 该自动 机的目 的就是 “ 平滑” 该 序列， 方法 是将由 1 包围 的一个 0 当 
作 “噪 音”， 并 把这个 0 替换为 1。 同样， 由 0 包围 的一个 1 也会被 当作噪 声并被 0 替代。 
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这里举 一个反 弹过滤 器使用 方式的 例子， 我们可 以逐行 扫描某 数字化 的黑白 图像。 该图像 
的每 一行其 实都是 0 和 1 组成的 序列。 因 为图片 有时候 会因胶 片瑕疵 或拍摄 问题造 成有一 些小点 
颜色 错误， 所以， 为了减 少图像 中不同 区域的 数量， 并让我 们将精 力放在 “ 真实” 的特 色而非 
那些虚 假的特 征上， 消除这 样的点 是很实 用的。 

图 10-4 表示的 就是对 应该反 弹过滤 器的自 动机。 其中的 4 种状 态解释 如下： 

(a)  我们已 经看到 至少在 一行中 含两个 0 的一列 0; 

(b)  我们 已经看 到一列 0 后面跟 着一个 1 ; 

(c)  我们 已经看 到至少 有两个 1 的一列 1 ; 

(d)  我们 已经看 到一列 1 后面跟 着一个 0。 

状态 a 被指 定为起 始状态 ，表 示我们 的自动 机进行 处理时 就好像 在输入 之前有 一个看 不见的 
前缀 0 序列 那样。 


图 10-4 消除 虚假的 0 和 1 的 自动机 

接受 状态是 c 和么 对该 自动机 而言， 其 接受过 程与图 10-3 所示 的自动 机有着 一些不 同的含 
义。 对图 10-3 所示的 自动机 而言， 在到达 接受状 态时， 就可 以说整 个输人 都被接 受了， 包括自 
动 机还没 有读到 的那些 字符。 ® 而在 这里， 我 们想要 接受状 态表述 “输 出一个 1”， 还要一 个表述 
“输 岀一个 0”  的 非接受 状态。 在 这种解 释下， 我们会 将输入 中的每 一位都 转化成 输岀中 的每一 
位。 通常输 出是和 输人相 同的， 不 过有时 候也会 不同。 例如， 图 10-5 展示了 输入为 0101101 时的 
输入、 各个 状态和 它们的 输出。 


输入： 

0  1  0 

110] 

状态： 

a  a  b  a 

bed 

C 

输出： 

0  0  0  0 

0  1  1 

1 

图 1 0-5 图 1 0-4 中的自 动机处 理输入 0 1 0 1 1 0 1 时 的情 况模拟 

我们 从状态 fl 开始， 因为 a 是 非接受 状态， 所 以输出 0。 请 注意， 这一初 始输岀 并不是 对任意 
输人的 回应， 而 是表示 在初次 开启设 备时自 动机的 条件。 

图 10-4 中 从状态 a 出发 标记 了输人 0 的转 换是到 达状态 a 自 身的。 因此第 二个输 出还是 0。 第 
二个 输入是 1， 而且 从状态 a 可以进 行针对 1 的 到状态 6 的 转换。 该状态 “记 住了” 我们已 经看到 
过一个 1， 不 过因为 6 是 非接受 状态， 所 以输出 仍然是 0。 针对 第三个 输入， 也就是 另一个 0, 我 


① 不过， 通过 为状态 5 加一个 所有字 母上的 转换， 我们 可以修 改该自 动机， 使其能 继续读 u 之后的 所有 字母。 
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们又 从状态 6 回到 了状态 fl， 而且 继续发 出输出 0。 

接 下来的 两个输 入都是 1， 可以先 将自动 机带到 状态乂 然后带 到状态 c。 对 这两个 1 中的第 
一个 1, 我 们发现 自己是 在状态 6 中， 这会带 来输出 0。 这个 输出是 错的， 因 为我们 其实已 经开始 
处理 1  了， 但 是在读 完第四 个输入 后还不 知道这 一点。 这种简 单设计 的影响 在于， 不管是 0 还是 1 
组 成的， 所有的 串都被 右移了 一位， 因 为在自 动机意 识到它 已经开 始处理 新的串 而不是 “ 噪声” 
位 之前， 一行 中已经 接受了 2 位。 在 接收第 5 个输 入时， 我们就 会遵循 从状态 6 到状态 c 针对 输入 1 
的 转换。 在 这一情 况下， 会得到 第一个 1 输岀， 因为 c 是接受 状态。 

最 后两个 输入是 0 和 1。 0 把我们 从状态 c 带到 状态义 这样 我们可 以记得 自己已 经看到 了一个 
0。 从状态 d 的输岀 依然是 1， 因为 该状态 是接受 状态。 最后的 1 将 我们带 回状态 c 并生 成输岀 1。 


自动机 与其程 序之间 的区别 

自动 机是种 抽象。 从 10.3 节起将 会变得 明确， 通 过确定 从起始 状态到 某个用 相应序 列标记 
的接 受状态 之间是 否存在 路径， 自动 机呈现 了一种 对任意 输入字 符序列 的接受 / 拒绝 决定 。举 
例 来说， 图 10-5 表 示的反 弹过滤 器自动 机的行 为告诉 我们， 该自动 机拒绝 e 、 0、 01、 010 和 0101 
这些 前缀， 但 它接受 01011、 010110 和 0101101 这几个 前缀， 如图 10-4 所示。 图 10-3 的自 动机接 
受 abstemioii 这 样的字 符串， 但拒绝 abstemious  , 因为 从状态 5 没办 法到达 最后的 s。 

另一 方面， 由自动 机创建 的程序 能以多 种方式 使用这 种接受 / 拒绝决 定。 例如， 图 10-2 中的 
程序使 用了图 10-3 所 示的自 动机， 但 它不是 认可标 记通向 接受状 态的路 径的字 符串， 而 是认可 
整行 输入， 也 就是， 接受 abstemious 而非 abstemiou。 这是 绝对合 理的， 而 且反映 了我们 
编 写程序 测试按 次序的 5 个元音 字母的 方式， 而 不管是 使用了 自 动机或 是其他 的方法 。据 推测， 
只要 我们到 达字母 II， 该程序 就会打 印出整 个单词 而不再 继续检 查其余 字母。 

图 10-4 所示自 动机的 使用方 式就更 简单。 我 们将会 看到， 图 10-7 中对 应这一 反弹过 滤器的 
程序会 直接把 每个接 受状态 转 化成打 印一个 1 的 行动 ，而 将 每个拒 绝状态 转 化成打 印一个 0 的 
行动。 


10.2.2  习题 

(1)  设计自 动机， 读由 0 和 1 组成 的串， 并能进 行下述 操作。 

(a)  确定 目前位 置读到 的序列 是否有 偶校验 （ 即存在 偶数个 1  ) 。 特别 要指岀 的是， 如果目 前为止 
该 串有偶 校验， 则 该自动 机会接 受它， 而 如果它 具有奇 校验， 自动机 就会拒 绝它。 

(b)  检验 输人串 没有两 个以上 连续的 1。 也就 是说， 除非 111 是当 前为止 读过的 输人串 的子串 ，否 
则 接受。 

每 种状态 的 直觉含 义各是 什么？ 

(2)  在给 定输人 1 0 1 00 1 1 0 1 1 1 0 时， 指 岀习题 ( 1 ) 中 自动机 的状 态序列 和 输岀。 

(3)  *设 计自 动机， 读的 是单词 （字符 串）， 并分辨 单词中 的字母 是否是 已排好 序的。 例如， adept 
和 chilly 这样 的单词 中的字 母就是 已排好 序的， 而 baby 就 不是， 因为在 第一个 b 后面 有个 a。 单 
词一 定是以 空白终 止的， 这样自 动机才 会在读 完所有 字符后 知道这 一点。 与示例 10.1 不同， 这里 
我们 必须在 读完所 有字符 后才能 接受， 也就 是说， 必须在 到达单 词末端 的空白 之后才 能接受 。该 
自动 机需要 多少种 状态？ 每 种状态 的直觉 含义是 什么？ 从每种 状态岀 发的转 换又有 多少？ 总共 
有多少 种接受 状态？ 
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(4)  设计自 动机， 使其 能分辨 字符串 是否为 合法的 C 语言 标识符 （字母 后跟上 字母、 数 字或下 划线） 
后跟上 空白。 

(5)  编写 C 语言 程序， 实 现习题 (1) 到习题 (4) 的 各种自 动机。 

(6)  设计自 动机， 使 其能分 辨给定 的字符 串是否 为第三 人称单 数代词 （he、 his、 him、 she、 her 
或 hers  ) 后跟上 空白。 

(7)  * 将习题 (6) 设计的 自动机 转换成 C 语言 函数， 并 在程序 中使用 该函数 找到某 给定字 符串中 所有出 
现第 三人称 单数代 词子串 的位置 。 

10.3 确定自 动机和 非确定 自动机 

使 用自动 机进行 的最基 本的操 作之一 是接受 一系列 的符号 … ， 并从起 始状态 起循着 
一 条由标 号依次 为这些 符号的 弧组成 的路径 行进。 也就 是说， 对 /=1、 2、 …、 &来 说， 都是 
集 合&中 作为路 径上第 / 条弧 标号的 成员。 构建这 一路径 及其状 态序列 的过程 就是自 动机 对输入 
序列 … ％ 的模拟 （simulating)。 可 以说这 一路径 标号为 … ％ ， 当然， 它也 可能有 其他标 
号， 因为给 路径上 的弧提 供标号 的各集 合&可 能各自 含 有很多 字符。 

♦ 示例 10.3 

我们 在图 1 0-5 中进 行过一 次这样 的模拟 ，其中 模仿 了图 1 0-4 中的自 动机 对序列 0 1 0 1 1 0 1 的处 
理。 另外， 以图 10-3 中用 来识别 单词中 是否含 有序列 aeiou 的 自动机 为例， 考虑对 字符串 adept 
的处理 。 

我们 从状态 0 中 开始。 从状态 0 岀发的 转换有 两次， 一次 是针对 字符集 A -a 的 转换， 另一次 
是针对 单独一 个字母 a 的。 因为 adept 的第 一个字 符就是 a， 所以 要遵循 后一个 转换， 这 把我们 
带到 了状态 1。 从状态 1 岀发， 又 有针对 A-e 和 e 的 转换。 因为 第二个 字符是 d， 所 以必须 遵循前 
一种 转换， 因为 A-e 包 含除了 e 之外的 所有 字母。 这 把我们 再次留 在状态 1 中。 因 为第三 个字母 
是 e， 所以 要循着 从状态 1 出发的 第二种 转换， 将 我们带 到状态 2。 adept 的 最后两 个字母 都在集 
合八 -i 中， 所以下 两次转 换都是 从状态 2 到状态 2。 因此 在状态 2 中就完 成了对 adept 的处 理。 
相应 的状态 转换序 列如图 10-6 所示。 因 为状态 2 不 是接受 状态， 所 以我们 没有接 受输入 adept。 


输入：  adept 

状态：  0  112  2  2 


图 10-6 对 10-3 中的自 动机针 对输人 adept 的模拟 


有关自 动 机输入 的术语 

在这里 将要讨 论的例 子中， 自 动机的 输入是 字符， 比如 字母和 数字， 而且 将输入 当作字 
符并 将输入 序列当 作 字符串 是很方 便的。 我 们在这 里一般 会使用 这一 术语， 不过 偶尔会 将“字 
符串” 简称为 “ 串”。 不过， 在 有些应 用中， 自动机 要转换 的输入 是从比 ASCII 字符集 更广泛 
的集 合中选 出的。 例如， 编 译器可 能会把 while 这样的 关键词 看作单 个输入 符号， 我 们将这 
种 情况用 加粗的 字符串 while 表示。 因此有 时候我 们会把 这种单 独的输 入称作 “ 符号” 而非 
“字 符”。 
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10.3.1 确定 自动机 

在 10.2 节中 讨论过 的自动 机有个 重要的 属性。 对任 意状态 s 和任 意输 人字符 x 来说， 至多只 
有 一 '种 从状态 ■岀发 的转换 的标号 中含有 X。 这 样的自 动机 就称为 确定自 动机。 

为给 定输人 序列模 拟确定 自动机 是很简 单的。 在任 意状态 S 中， 给定下 一个输 入字符 X， 考 
虑从 s 出发 的每种 转换的 标号。 如果我 们找到 标号含 JC 的 转换， 那么 该转换 就指向 适当的 下一个 
状态。 如果 没有含 x 的转 换， 那 么该自 动机就 “死机 ”了， 而且不 能再继 续处理 输人， 就像图 10-3 
中 的自动 机在到 达状态 5 后就 会停机 那样， 因为它 知道自 己已经 找到了 子序列 aeiou。 

将确 定自动 机转变 为程序 是很容 易的。 我们 为每个 状态编 写一段 代码。 对 应状态 s 的代 码会 
检 查它的 输入， 并决 定应该 遵循从 s 岀发 的哪 种转换 （如果 存在这 样的转 换)。 如 果选定 了从状 
态 ^ 到状 态? 的 转换， 那么 必须安 排表示 状态? 的代码 接着表 示状态 s 的代码 执行， 可能 是通过 goto 
语句来 实现。 

♦ 示例 10.4 

这里我 们编写 了一个 对应图 10-4 所 示反弹 过滤器 自动机 的函数 bounce  () 。 变量 x 是用 来从 
输入 中读字 符的。 状态 a、 K  c 和 J 将分别 用标号 a、 b、 c 和 d 来表 示， 而 且要使 用标号 finis 表 
示 程序的 结尾， 也就是 在输人 中遇到 0 和 1 之 外的字 符时会 到达的 地方。 

代 码如图 10-7 所示。 例如， 在状态 fl 中我 们会打 印字符 0, 因为 《是 非接受 状态。 如果 输入字 
符是 0, 就停留 在状态 a， 而且如 果输入 字符是 1， 就进 入状态 ft。 


void  bounce () 

{ 

char  x; 

/* 状态 a  */ 

a:  put char (  '  0  ' ) ; 

x  =  get char () ; 

if  (x  ==  '  0 ' )  goto  a;  /*  transition  to  state  a  */ 

if  (x  ==  1 1 ' )  goto  b;  /*  transition  to  state  b  */ 

goto  finis ; 

/* 状态 b  */ 

b :  put char ( ' 0  ' ) ; 

x  =  get char () ; 

if  (x  ==  ' 0 ' )  goto  a;  /*  transition  to  state  a  */ 

if  (x  ==  ' 1 ' )  goto  c ;  /*  transition  to  state  c  */ 

goto  finis ; 

/* 状态 c  */ 

c  :  put char (  '  1  ' ) ; 

x  =  get char () ; 

if  (x  ==  '  0 1 )  goto  d;  /*  transition  to  state  d  */ 

if  (x  ==  '  1 1 )  goto  c ;  /*  transition  to  state  c  */ 

goto  finis ; 

/* 状态 d  */ 

d:  put char  (  '  1 ' ) ； 

x  =  get char () : 

if  (x  ==  '  0 ' )  goto  a;  /*  transition  to  state  a  */ 

if  (x  ==  '  1 ' )  goto  c;  /*  transition  to  state  c  */ 

goto  finis ; 

finis :  ; 

> 


图 10-7 实现图 10-4 中确定 自动机 的函数 
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在 “自 动机” 的定义 中没有 要求从 某给定 状态出 发的转 换的标 号必须 是不相 交的， 如果 
集 合没有 相同的 成员则 说它们 是不相 交的， 即它们 的交集 为空。 如 果有图 10-8 所 示的这 种图， 
其中针 对输人 x 有从 状态 s 到状态 Z 和状态 w 的转 换， 这样一 来该自 动 机要如 何用程 序来实 现就不 
是很清 楚了。 也就 是说， 在 执行对 应状态 s 的代 码时， 如 果发现 x 是下一 个输入 字符， 就得知 
接 下来一 定要进 人表示 状态? 的 代码的 开头， 而 且还要 进入表 示状态 w 的 代码的 开头。 因为程 
序一次 不能到 达两个 位置， 所 以要如 何模拟 从状态 岀发的 转换具 有相同 标号的 自动机 是很不 
明 朗的。 


10.3.2 非确定 自动机 

非 确定自 动机 可以具 有从某 一状态 岀发的 包含相 同符号 的两个 或多个 转换， 但这不 是必须 
的。 请 注意， 严格 地讲， 确 定自动 机也是 一种非 确定自 动机， 它只 是刚好 没有针 对同一 符号的 
多种 转换。 一 般来说 “自 动机” 都 是不确 定的， 不过 我们在 强调自 动机不 是确定 自动机 时还是 
会使用 “非 确定自 动机” 的 说法。 

正如 上文提 过的， 非 确定自 动机不 能直接 用程序 实现， 不过它 们对这 里将要 讨论的 若干应 
用 来说是 很实用 的概念 工具。 此外， 通 过利用 10.4 节 中将要 介绍的 “ 子集构 造”， 可以将 任意非 
确定 自动机 转换成 接受相 同字符 串集合 的确定 自动机 。 

10.3.3 非确定 自动机 的接受 

在我 们试图 模拟针 对输入 字符串 啊…心 的非确 定自动 机时， 可能发 现同一 个字符 是多条 
路径的 标号。 习惯 上讲， 如 果至少 有一条 由某输 人编辑 的路径 可以通 向接受 状态， 就可 以说非 
确定自 动机接 受这一 输入字 符串。 以接 受状态 结尾的 那一条 路径， 要比任 意数量 以非接 受状态 
结尾的 路径更 重要。 


不 确定性 和猜测 


认为不 确定性 让自动 机可以 “ 猜测” 是种 看待不 确定性 的实用 方式。 如果我 们不知 道在某 
给 定状态 中要对 某给定 的输入 字符做 什么， 就 可以对 下一个 状态做 出若干 选择。 因为由 带向接 
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受 状态的 字符串 标记的 任意路 径会被 解释为 接受， 所以非 确定自 动机其 实被 赋予了 进行 一次正 
确 猜测 的 信用， 而 不管它 还会造 成多少 次错误 猜测。 


♦ 示例 10.5 

反性别 歧视言 论联盟 （ League  Against  Sexist  Speech,  LASS  ) 希 望找到 含单词 man 的性 别歧 
视 文字。 他 们不止 想捕获 ombudsman  ( 特 派员） 这样的 构词， 还 希望捕 获诸如 maniac  ( 狂人） 
或 emancipate  (解 放） 这样形 式更为 微妙的 歧视。 LASS 计划设 计一个 使用自 动机的 程序， 该程 
序会 扫描字 符串， 并会 在它从 输入中 任意位 置找到 字符串 man 时 “ 接受” 该 输入。 


A  —  n 

图 10-9 可识别 大多数 （而非 全部） 以 man 结尾的 字符串 的确定 自动机 


大家 可能首 先会尝 试如图 10-9 所示的 确定自 动机。 在该自 动机中 ，状态 0, 也就 是起始 状态， 
表 示的是 我们还 没看到 man 这 几个字 母时的 情况。 状态 1 是用 来表示 我们已 经看到 m 的情形 ，在 
状态 2 中我 们已经 识别了 ma， 而 在状态 3 中我 们已经 看到了 man。 在状态 0、 状态 1 和状态 2 中 ，如 
果 我们没 有看到 想找的 字母， 就回 到状态 0 并再次 尝试。 

不过， 图 10-9 并不能 很正常 地完成 处理。 在处理 command 这 样的输 人时， 当它读 c 和 o 时会 
停留 在状态 0 中。 在读 第一个 m 时它 会进 入状态 1， 不过 第二个 m 又会 把它带 回状态 0, 随 后它就 
无法离 开状态 0  了。 

可以正 确识别 内嵌了 man 的 字符串 的非确 定自动 机如图 10-10 所示。 关键 的革新 在于， 我们 
在状态 0 中 会猜测 m 是否 标志着 man 的 开始。 因 为该自 动 机是非 确定自 动机， 它 允许同 时猜测 “是” 
( 由 从状态 0 到状态 1 的转换 表示） 和 “否” （ 由可以 对包括 m 在内的 所有字 母执行 从状态 0 到状态 0 
的转 换这一 事实表 示)。 因为 非确定 自动机 的接受 需要的 不过是 一条通 向接受 状态的 路径， 所以 
我 们可以 受益于 这两种 猜测。 


图 10-10 可识别 所有以 man 结尾的 字符串 的非 确定自 动机 


图 10-11 展 示了图 10-10 中 的非确 定自动 机在处 理输入 字符串 command 时的 行动。 在回应 c 
和 o 时， 该自 动机只 能停留 在状态 0 中。 在输入 第一个 m 时， 自动 机可以 选择进 入状态 0 或状态 1， 
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因此 它同时 进人了 这两个 状态。 在处理 第二个 m 时， 从状态 1 是 没办法 继续行 进的， 所以 该分支 
就成 了一条 “死 路”。 不过， 从状态 0 可以 再次进 入状态 0 或状态 1， 这 里又同 时进入 这两种 状态。 
当输入 a 时， 可以 从状态 0 到 达状态 0, 并 从状态 1 到 达状态 2。 同样， 在输人 n 时， 可以 从状态 0 
到 达状态 0, 并且 从状态 2 到 达状态 3。 


1  1  — ►  2  — ►  3 

图 10-1 1 模拟图 10- 10 中的非 确定自 动 机处理 输人串 command 的情况 


因 为状态 3 是接受 状态， 所以 在该点 处我们 可以接 受这一 输人。 ® 对接 受状态 而言， 在看到 
co 皿 nan 后也处 在状态 0 中这一 事实是 无关紧 要的。 最 后的转 化是针 对输人 d 的， 从状态 0 到状态 
0。 请注 意状态 3 不 会针对 任意输 入行进 到任何 位置， 所 以该分 支也完 结了。 

还要 注意， 图 10-9 中展 示的用 来处理 未接收 到单词 man 后一 个字符 这种情 况的回 到状态 0 的 
转换， 在图 10-10 中 是不必 要的， 因 为在图 10-10 中 我们看 到输入 man 时不 一 '定 要沿 着序列 从状态 
0 到状态 1 再 到状态 2 最后 到状态 3。 因此， 虽 然状态 3 看起来 “已 死”， 而且 在看到 man 时 已终止 
计算， 但 是我们 在看到 man 时 也停留 在状态 0 中 。该 状态允 许我们 在处理 manoman 这 样的输 入时， 
于读 第一个 man 期 间停留 在状态 1 中， 并在读 第二个 man 时行 经状态 1 、 状态 2 和状态 3 ， 以 此来接 
受 manoman 这样的 输人。 

当然， 图 10-10 的设计 尽管很 动人， 但不 能直接 转换为 程序。 我 们将在 10.4 节 中看到 如何把 
图 10-10 转换 成只含 4 个 状态的 确定自 动机。 与图 10-9 不同 的是， 该 确定自 动机可 以正确 地识别 
所有岀 现 man 的 单词。 

尽管 可以把 任意非 确定自 动机 转换成 确定自 动机， 但 并非总 是像图 10-10 所示 的情况 这般幸 
运 。在图 10-10 中的情 况下， 可以看 到对应 的确定 自动机 的状态 不会多 于原非 确定自 动机的 状态， 
也就 是各有 4 个 状态。 但事 实上， 还存 在另外 一些非 确定自 动机， 与 它们对 应的确 定自动 机会含 
有更多 状态。 一个含 《种 状态的 非确定 自动机 有可能 只能转 换成含 2”个 状态的 确定自 动机。 下一 
个示例 正好就 是确定 自动机 的状态 要比非 确定自 动机的 状态多 得多的 情况。 因此， 对同 一个问 
题 而言， 设计非 确定自 动 机可能 比设计 确定自 动 机简单 得多。 

♦ 示例 10.6 

当本书 作者之 一 Jeffrey  D.Ullman 之子 Peter Ullman 上四年 级时， 他的一 位老师 试图通 过为学 
生们布 置一些 “部 分换位 构词” 问题来 增加他 们的词 汇量。 该老师 每周会 给学生 们布置 一个单 
词， 并要求 他们找 岀使用 该单词 的一个 或多个 字母可 以构成 的所有 单词。 

有那么 一周， 该老师 布置的 单词是 Washington, 本书的 两位作 者聚在 一起， 决定进 行一次 
穷举 查找， 看看 到底可 能形成 多少个 单词。 利用 /usr/dict/words 文 件与含 3 个 步骤的 过程， 
我们 找到了 269 个 单词， 其中 有以下 5 个含 7 个 字母的 单词： 


①请 注意， 图 10-10 中的 自动机 就像图 10-3 中的 自动机 那样， 在看到 它查找 的模式 时就会 接受， 而不 是在单 词的结 
尾 接受。 当 我们最 终把图 10-10 转 换成确 定自动 机时， 就可 以根据 它设计 能打印 整个单 词的程 序了， 就像图 10-2 
中 的程序 那样。 
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agonist 

goatish 

showing 

washing 

wasting 


因为字 母的大 小写对 本问题 来说不 重要， 所以第 一步就 是要把 词典中 所有的 大写字 母全部 
转化 为小写 字母。 执行这 一任务 的程序 是很简 单的。 

第二步 是选取 只含来 自集合 >S={a， g， h， i,  n， o， s， t， w} 中 的字母 ( Washington 
中的 字母） 的 单词。 图 10-12 中的确 定自动 机就能 完成该 任务。 newline 字符是 
/usr/ diet /words 中标记 行尾的 字符。 如果我 们遇到 newline 之 外的其 他任意 字符， 就不用 
进行 转换， 而且 自动机 决不会 到达接 受状态 1。 如果在 只读到 Washington 中 的字母 后遇到 
newline, 就进行 从状态 0 到状态 1 的 转换并 接受该 输入。 


图 10-12 检测由 Washington 中岀现 的字母 所构成 单词的 自动机 


图 10-12 中的 自动 机接受 hash 这样的 单词， 也就 是相应 字母出 现的次 数多于 Washington 
本 身中字 母岀现 次数的 单词。 因此， 我们的 第三步 也是最 后一步 就是， 排除那 些包含 3 个 或更多 
n, 或是包 含两个 或更多 ^ 中其他 字符的 单词。 这一任 务也可 以由自 动机来 完成。 例如， 图 10-13 
中的 自动机 接受的 是至少 有两个 a 的单 词。 我们 会停留 在状态 0 中， 直 至看到 a， 在这种 情况下 
就进 入状态 1。 接 着会保 持状态 1， 直 到看到 第二个 a， 才进 入状态 2 并 接受该 输入。 该自 动机接 
受那 些因为 有太多 a 而不 能用 Washington 部分换 位构词 得到的 单词。 在 这种情 况下， 我 们想要 
的刚 好是那 些在处 理过程 中从不 会让自 动机 进入接 受状态 2 的 单词。 


图 10-13 如果 输入存 在两个 a 就接 受该输 人的自 动机 


图 10-13 所 示的自 动机是 确定自 动机。 不过， 它只 表示了 某单词 可被图 10-12 中的自 动机接 
受却 仍不是 Washington 经 部分换 位构词 得到的 单词的 9 种原 因之一 。要接 受具有 Washington 
中某个 字母太 多实例 的全部 单词， 我 们可以 使用图 10-14 中的非 确定自 动机。 

图 10-14 从状态 0 中 开始， 而且 它针对 任意字 母的一 种选择 就是留 在状态 0 中。 如果输 人字符 
是 Washington 中的任 意一个 字母， 就有 另一种 选择； 该自 动机还 会猜测 它应该 转换到 这样一 
个 状态， 该状 态的功 能是记 住该字 母已经 岀现过 一次。 例如， 针 对字母 i， 我 们有进 人状态 7 的 
选择。 然 后我们 就会留 在状态 7 中， 直 到看到 另一个 i， 从而进 入作为 接受状 态之一 的状态 8。 回 
想 一下， 在 该自动 机中， 接受 就意味 着输人 字符串 不是由 Washington 经过 部分 换位构 词得到 
的 单词， 在这 里描述 的情况 中就是 因为该 单词含 有两个 i。 
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因为在 Washington 中 有两个 n， 所以对 n 的处 理有些 不同。 自动机 在看到 一 个 n 后会 进入 
状态 9， 而 在看到 第二个 n 后会进 入状态 10, 接着 在看到 第三个 n 时才 进入接 受状态 11。 


图 10-14 检测含 有一个 以上的 a、 g、 h、 i、 o、 s、 t 或 w, 或 者两个 
以上 n 的单 词的非 确定自 动机 
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例如， 图 10-15 展示了 读输人 字符串 shining 之后 的所有 状态。 因为我 们在读 第二个 i 后会 
进入接 受状态 8， 所以 shining 不是由 Washington 经过 部分换 位构词 得到的 单词， 即 便它因 
为 只含有 washi  ng  t  on 中可以 找到的 字母 而能被 图 1 0- 1 2 中的自 动机 接受。 


0  — 0  0  0  0  0  0  0 


14 ― ►H ― ►  14  — ►  14 — ►  14 ― ►  14 ― ►M 
图 10-15 图 10-14 中的非 确定自 动机处 理输入 字符串 shining 时进人 的状态 


总结 下来， 我们 的算法 由以下 3 步 组成。 

(1)  首先将 词典中 的所有 大写字 母转换 成小写 字母。 

(2)  找到 10-12 中 的自动 机接受 的所有 单词， 这些单 词只由 Washington 中 的字母 组成。 

(3)  从步骤 (2) 得到的 单词中 删除图 10-14 中非确 定自动 机接受 的所有 单词。 

该算 法是在 /usr/dict  /  words 文件 中找 到可由 Washington 经过 部分 换位构 词得到 的单词 
的简单 方法。 当然， 必须找 到某种 合理的 方式来 模拟图 10-14 中的非 确定自 动机， 我 们将在 10.4 
中讨论 如何完 成这一 任务。 

10.3.4  习题 

(1)  编写 C 语言 程序， 实现图 10-9 中 确定自 动机的 算法。 

(2)  设计 确定自 动机， 使其能 正确地 找出字 符串中 出现的 所有子 字符串 man。 并将该 自动机 实现为 
程序。 

(3)  LASS 希望 检测岀 所有含 字符串 man、 son 和 father 的 单词。 设计非 确定自 动机， 使其只 要找到 
这 3 个 字符串 中任 意一个 就接受 相应的 输入字 符串。 

(4)  * 设计 确定自 动机， 使其 可以解 决习题 (3) 中的 问题。 

(5)  模拟图 10-9 和图 10-10 中的自 动 机处理 字符串 su_and 时的 情况。 
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(6)  模拟图 10-14 的自动 机处理 以下字 符串的 情况。 

(a)  saint 

(b)  antagonist 

(c)  hashish 

其中哪 些字符 串会被 接受？ 

(7)  可以 用具有 状态、 输人 和接下 来这些 属性的 关系来 表示自 动机。 这样 做的目 的是， 如果 0,  X， 0 
是个 元组， 那么输 人符号 x 就是 从状态 5到 状态徹 转换的 标号。 如 果该自 动机是 确定自 动机， 那么 
该关 系合适 的键是 什么？ 如 果该自 动 机是非 确定自 动 机呢？ 

(8)  如果只 是想在 给定某 状态和 某输人 符号的 情况下 找岀接 下来的 （一 个或 一些） 状态， 大家 会建议 
用什么 数据结 构来表 示习题 (7) 中的 关系？ 

(9)  将 如下图 所示的 自动机 表示为 关系。 

(a)  图  10-10 

(b)  图 10-9 

(c)  图 10-14 

可以使 用椭圆 来表示 A - m 这 样针对 含大量 字母的 集合的 转换。 


不 编程找 到部分 换位构 词形成 的单词 

顺便提 一句， 我们可 以使用 UNIX 系统的 命令， 几乎不 进行编 程就实 现示例 10.6 中的 3 步 算法。 对步 
骤 (1)， 可 以使用 UNIX 命令 


tr  A-Z  a-z  </usr /diet /words  (10.1) 

把 大写字 母转化 成小写 字母。 对步骤 (2)， 可以使 用命令 

egrep  '八 [ aghinos tw] *  $ '  (10.2) 

粗略 地讲， 就是定 义了图 10-12 中那 样的自 动机。 对步骤 (3), 可以使 用命令 

egrep  -v  'a. *a I g. *g I h. *h | i • *i | n. *n. *n | o • *o I s • *s 1 1 • *t I w.  (10.3) 

该命令 指定了 类似图 10-14 中自 动机的 事物。 整 个任务 可以使 用以下 三元素 管道来 完成： 

(10.1)  I  (10.2)  |  (10.3) 

也就 是说， 整个 命令是 通过用 表示各 行的文 本替换 各行形 成的。 竖线， 或者说 “ 管道” 符号， 使得 
左侧 命令的 输出可 以成 为右侧 命令的 输入。 我 们将在 10. 6 节 中讨论 egrep 命令。 


10.4 从 不确定 到确定 

在本 节中我 们将会 看到， 每一个 非确定 自动机 都可以 被确定 自动机 替代。 正 如我们 已经看 
到的， 在执行 某些任 务时， 考 虑非确 定自动 机有时 要更简 单些。 不过， 因 为根据 不确定 自动机 
编写 程序不 如根据 确定自 动机编 程那样 容易， 所以 找到一 种将不 确定自 动 机变形 为等价 的确定 
自动机 的算法 是很重 要的。 

10.4.1 自 动机的 等价性 

在 10.3 节中 ，我们 已经看 到两种 接受观 。在 某些示 例中， 比如 在示例 10.1( 含有 子序列 aeiou 
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的 单词） 中， 接受 就意味 着整个 单词被 接受， 即 便我们 可能没 有扫描 完整个 单词。 而在 另一些 
例 子中， 比方 说示例 10.2 的反 弹过滤 器中， 或是图 10-12 所示的 自动机 （字 母全在 Washington 
中的 单词） 中， 只 有在我 们想对 从启动 自动机 以来已 经看到 的确切 输入表 示认可 时才接 受该输 
入。 因此， 在示例 10.2 中， 我们 接受所 有能带 来输岀 1 的输入 序列。 在图 10-12 中， 只有在 已经看 
到 newline 字符， 知道已 经看到 整 个单词 时才 接受该 输入。 

当 谈论正 式的自 动机行 为时， 我 们只需 要第二 种解释 （当 前的输 入被接 受)。 严 格地讲 ，假 
设 J 和 5 是两个 自动机 （确定 或不确 定)。 如栗 4 和 5 接受 相同 的输入 字符串 集合， 就说它 们是等 
价的。 换句 话说， 如果 叫七…七 是 任意符 号串， 那 么以下 两个条 件是成 立的。 

(1)  如果从 j 的起始 状态到 ^4 的某个 接 受状态 存在以  … ~ 标 记的路 径， 那么从 5 的 起始状 

态到 5 的某 个接受 状态也 存在以 flla2 … ％ 标记的 路径。 

(2)  如果从 5 的起始 状态到 5 的 某个接 受状态 存在以 … ~ 标记的 路径， 那么 从』 的 起始状 
态到』 的某 个接受 状态也 存在以 ap2 标记的 路径。 

♦ 示例 10.7 

考虑 图 1 0-9 和图 1 0- 1 0 中的自 动机。 正如我 们在图 1 0- 1 1 中注意 到的， 图 1 0- 1 0 中的自 动机接 
受输入 字符串 comman, 因为该 字符序 列在图 10-10 中标记 了路径 0  4  0  4  0  4  0  4 1  4  2  4  3 ， 
而且这 一路径 是从起 始状态 岀发， 到 达了一 个接受 状态。 不过， 在图 10-9 所 示的确 定自动 机中， 
可以 验证由 comman 标记 的路 径只有 O  —  O  —  O  —  l  —  O  —  O  —  O。 因此 如果图 10-9 是自 动机 ^ ， 
而图 10-10 是 自动机 5, 就 违背了 上述第 (2) 点， 这样 就表明 这两个 自动机 不是等 价的。 

10.4.2 子 集构造 

我们现 在将会 看到， 如何通 过构造 等价的 确定自 动机来 “ 消除自 动机的 不确定 性”。 这一 
技巧叫 作子集 构造， 而且它 的本质 就如图 10-11 和图 10-15 所示， 在 这两幅 图中我 们模拟 了处理 
特殊输 入的非 确定自 动机。 从这两 幅图中 我们注 意到， 在任何 给定的 时间， 非 确定自 动机都 
在某一 状态集 合中， 而 且这些 状态都 岀现在 模拟图 的同一 列中。 也就 是说， 在 读了某 输入列 
… 七 之后， 非 确定自 动机就 “在” 那些 从起始 状态岀 发沿着 标记有 … 七 的路径 可以到 
达的状 态中。 

♦ 示例 10.8 

在读 完输人 字符串 shin 之后， 图 10-15 所示的 自动机 处在状 态集合 {0,  5,  7,  9， 14} 中。 
这些 状态都 岀现在 第一个 n 后的一 列中。 在读 下一个 i 后， 它 处在状 态集合 {0,  5,  7,  8,  9,  14} 
中， 而在 读了接 下来的 n 后， 在状 态集合 {0,  5,  7,  9， 10， 14} 中。 

现在就 有了如 何把非 确定自 动机 ^ 转换为 确定自 动 机乃的 线索。 D 的状 态各自 是 的 状态的 
集合， 而且乃 中状态 间的转 换是由 # 的 转换确 定的。 要 看到如 何构惠 D 的转 换， 设 S 是 乃的 某个状 
态， 而且 jc 是 某输入 符号。 因为提 乃的 状态， 所以 它是由 的 状态组 成的。 定 义集合 r 是自 动机 
中 那些状 态?， 这些 状态满 足存在 ^ 中的 状态& 以及 自动机 iV 针对 包含输 入符号 X 的集合 的从读 (k 
的 转换。 那么在 自动机 Z) 中 我们就 放置一 个在针 对符号 X 的从 ^ 到 r 的转 换。 

示例 10.8 展 示了多 个针对 输入符 号的从 一个确 定状态 到另一 个确定 状态的 转换。 在 当前的 
确定 状态是 {0,  5,  7,  9， 14}， 而且输 入符号 是字母 i 时， 我 们在该 示例中 看到， 根据图 10-14 
中的非 确定自 动机， 接下 来的不 确定状 态集是 r=  {0,  5,  7,  8,  9， 14}。 由针对 输入符 号《的 


10.4 从 不确定 到确定  443 


这一确 定状态 可知， 接下 来的不 确定状 态集是 t/=  {0,  5,  7,  9,  10， 14}。 这两 个确定 转换如 
图 10-16 所 描述的 那样。 


图 10- 16 确 定状态 A 抒卩 [/ 之间 的转换 


现 在我们 知道该 如何在 确定自 动 机乃的 两个状 态之间 构建转 换了， 不 过需要 确定自 动机 Z) 
确 切的状 态集、 乃 的起始 状态， 以及乃 的接受 状态。 我们要 用归纳 法来构 建乃的 状态。 

依据。 如果 非确定 自动扨 的起始 状态是 &， 那 么确定 自动机 D 的起始 状态是 也就是 
只含 & 这一个 元素的 集合。 

归纳。 假设已 经确定 了州的 状态集 ^是乃 的一个 状态。 依 次考虑 每个可 能的输 入字符 X。 对某 
个 给定的 X， 设 r 是# 的 状态? 构成的 集合， 其中 状态? 满足对 ^ 中的某 个状态 S 而言， 存在 标号含 X 
的从通 k 的 转换。 那 么集合 尤是 d 的一个 状态， 而且 存在针 对输入 X 的从翊 Jr 的 转换。 

D 的接受 状态是 的状 态集中 至 少包含 iV 的一个 接受状 态的。 这从直 觉上讲 是说得 通的。 
如果 ^是乃 的状态 而且是 的状 态集， 那么能 把乃从 其起始 状态带 到状态 ^ 的输人 ％a2 … A 也能 
把 iV 从其 起始状 态带到 ^ 中的 所有 状态。 如果 ^ 含有某 个接受 状态， 那么 ap2 … ~ 会被 接受， 
而且 Z) 也 一定会 接受该 输入。 因为 乃在接 收输入 flla2 …七 时只 会进入 状态& 所以 定是 乃 的 
接受 状态。 


图 10-17 识别以 man 结尾 字符串 的非 确定自 动机 


♦ 示例 10.9 

图 10-17 重 现了图 10-10 所 示的非 确定自 动机， 我 们来把 它转换 成确定 自动机 0。 先从 Z) 的起 
始状态 {0} 开始 。 

这一 构建过 程的归 纳部分 要求我 们查看 乃 的每个 状态， 并确 定它的 转换。 对 {0} 而言， 只需 
要询 问状态 0 通向 哪里。 分析图 10-17 得 到的答 案是， 对除了 m 之外 的任意 字母， 状态 0 只 能进入 
状态 0, 而 对输人 m， 它 同时通 向状态 0 和状态 1。 因此 自动机 X) 需要已 经具备 的状态 {0} 和 我们必 
须添加 的状态 {0， 1}。 目 前为止 已经为 乃构 建的转 换和状 态如图 10- 18 所示。 
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图 10-18 状态 {0} 及 其转换 


接 下来， 必 须考虑 从状态 {0,  U 岀发的 转换。 再次 研究图 10-17, 我们 看到， 对除了 m 和 a 
之外 的所有 输入， 状态 0 只通 向状态 0, 而状态 1 则 不能通 向任何 地方。 因此， 存在 从状态 {0,  1} 
到状态 {0} 的 转换， 标记 为除了 m 和 a 之外 的所有 字母。 对输入 m， 状态 1 还是 不能通 向任何 地方， 
不 过状态 0 会 同时通 向状态 0 和状态 1。 因此， 存在 从状态 {0， 1} 到其 本身的 转换， 标记为 m。 最 
后， 对输人 a， 状态 0 只会 通向它 自己， 不 过状态 1 是通 向状态 2 的。 因 此存在 标记为 a 的从 状态 
{0,  1} 到状态 {0,  2} 的 转换。 目前为 止乃已 经构建 起的部 分如图 10-19 所示。 


图 10-1 9 状态 {0} 和 {0， 1}， 以 及它们 的转换 


现在需 要构建 从状态 {0,  2} 岀发的 转换。 对除 m 和 n 之外 的所有 输入， 状态 0 只能通 向状态 0, 
而状态 2 则哪 里都去 不了， 因此 存在从 {0,  2} 到 {0} 的 转换， 标记 为除了 m 和 n 之外 的所有 字母。 
对输入 m， 状态 2 不通 向任何 状态， 而状态 0 则 同时通 向状态 0 和状态 1， 因此 标记为 m 的从 状态 {0, 
2} 到状态 {0， 1} 的 转换。 对输人 n， 状态 0 只 通向它 本身， 而状态 2 会通 向状态 3。 因此存 在标记 
为 n 的从 状态 {0,  2} 到状态 {0,  3} 的转换 。 乃 的该 状态 是接受 状态， 因 为它包 含了图 10-17 中的接 
受状态 —— 状态 3。 

最后， 必 须给出 从状态 {0,  3} 出发的 转换。 因为 对任何 输人， 状态 3 都不 通向任 何状态 ，从 
状态 {0,  3} 岀发 的转换 只反映 从状态 0 岀发的 转换， 因 此会与 ⑼通向 相同的 状态。 因为 从状态 
{0,  3} 出发 的转换 不会将 我们带 到尚未 见过的 乃的 状态， 所以 对2) 的构 造就完 成了。 完整 的确定 
自动 机如图 10-20 所示。 


图 10-20 确定 自动机 D 
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请 注意， 这一 确定自 动机可 以正确 地接受 所有以 man 结 尾的字 母串， 而且只 接受以 man 结 
尾的字 母串。 直觉 上讲， 只要字 符串目 前为止 不是以 m、 ma、 man 结尾， 该 自动机 就会处 在状态 
{0} 中。 状态 {0， 1} 意味着 目前为 止看到 的字符 串是以 m 结尾 的， 状态 {0,  2} 表示 当前的 字符串 
是以 ma 结尾， 而状态 {0,  3} 则说明 当前字 符串的 结尾为 man。 

♦ 示例 10.10 

图 10-17 中的非 确定自 动机有 4 个 状态， 而图 10-20 中与它 等价的 确定自 动 机也有 4 个 状态。 
如果所 有的非 确定自 动机都 能转换 成小型 确定自 动机就 好了， 例如， 在编 译编程 语言中 常用到 
的某 些自动 机其实 可以转 换成相 当小的 确定自 动机。 不过， 不 能保证 确定自 动机一 定很小 ，具 
有 犬 态的非 确定自 动机有 可能最 终被转 换成状 态多达 2&个 的 确定自 动机。 也就 是说， 对非确 
定自 动机状 态集的 幂集中 的每个 成员， 确定自 动 机都有 相应的 状态。 

举 个会得 到很多 状态的 例子， 考 虑一下 10.3 节图 10-14 中的自 动机。 因 为该非 确定自 动机有 
20 种 状态， 可 以想象 一下， 通过子 集构造 构建的 确定自 动机可 能有约 22() 个， 或者说 是超过 100 
万个 状态， 这 些状态 全都是 {0,  ：!,•••,  19} 的 幕集的 成员。 实际 结果并 没有这 么糟， 但也存 在相当 
多的 状态。 

我 们不会 尝试画 出与图 10-14 中 非确定 自动机 等价的 确定自 动机。 不过， 可以考 虑一下 实际上 
需要 哪些状 态集。 首先， 因为对 每个字 母都有 从状态 0 到其 自身的 转换， 所 以实际 看到的 所有状 
态集 都包含 0。 如 果字母 a 尚未 输入， 就 不能到 达状态 1。 不过， 如 果刚好 已经看 到一个 a， 不管还 
看到些 什么， 我 们都将 在状态 1 中。 我们还 可以为 Washington 中其他 任何字 母得出 相似的 论断。 

如果 在状态 0 中 开始图 10-14， 并为 其 提供属 于 Washington 中所岀 现字母 的子集 的 一列字 
母， 然 后除了 在状态 0 中 之外， 还可以 在状态 1、 3、 5、 7、 9、 12、 14、 16 和 18 的 某个子 集中。 
通过恰 当地选 择输人 字母， 我 们可以 安排在 这些状 态集的 任意一 个中。 因为有 29=  512 个这样 
的 集合， 所以 在与图 10-14 等 价的确 定自动 机中至 少有这 么多个 状态。 

不过， 其中的 状态要 更多， 因 为字母 n 在图 10-14 中得到 了特殊 处理。 如果 在状态 9 中， 我们 
还可以 在状态 10 中， 而 且如果 已经看 到两个 n， 其实 就将同 处状态 9 和状态 10 中。 因此， 尽管对 
其他 8 个字母 来说都 只有两 个选择 （比 如， 对字母 a， 要包 含状态 1， 要么不 含状态 1)， 而 对字母 
n 来说， 共有 3 种选择 （ 既不 含状态 9 也不 含状态 10、 只包 含状态 9, 或者 同时包 含状态 9 和状态 10  )。 
因为至 少存在 3  x  28  =  768 种 状态。 

不过 这并非 全部。 如果 到目前 为止的 输人以 Washington 中的字 母之一 结束， 而且我 们之前 
已经看 到足够 多的该 字母， 那么 我们也 应该在 对应该 字母的 接受状 态中， 比 方说， 对 a 来说 就是状 
态 2。 然而， 我 们在处 理相同 输人后 不可能 在两个 接受状 态中。 为 增加的 状态集 计数变 得更麻 烦了。 

假设接 受状态 2 是该 集合的 成员。 那 么可知 1 也是该 集合的 成员， 0 当然 也是， 不过我 们仍然 
对与除 a 之外 的字母 对应的 状态拥 有所有 选择， 这类 集合的 数量是 3x27, 或 者说是 384。 如果我 
们 的集合 包含接 受状态 4、 6、 8、 13、 15、 17 或 19, 这样 的道理 也同样 实用， 在每 种情况 中都有 
384 个 集合包 含相应 的接受 状态。 唯一的 例外就 是含接 受状态 11  (就 是状态 9 和状态 10 也 岀现） 
的 情况。 在该情 况下， 只有 28=256 种 选择。 因此， 该等价 确定自 动机的 状态总 数为： 

768  +  8x384  +  256=4864 

第一项 768 表示 那些不 含接受 状态的 集合的 数量。 接 下来的 一项， 表 示的是 分别包 含与除 n 
之 外其他 8 个字 母对应 的接受 状态的 8 类 集合的 数量， 第三项 256 则表示 含状态 11 的 集合的 数量。 
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关于子 集构造 的想法 

子集构 造是相 当不好 理解的 。特 别是 确定自 动机的 状态可 以是非 确定自 动机 的状态 集这一 
思路 可能需 要大家 耐心思 考才能 想通。 不过， 这种 把结构 化对象 （状 态集） 与原 子对象 （确定 
自动机 的各个 状态） 融合 成同一 对象的 概念， 是计算 机科学 中的一 种重要 概念。 我们已 经在程 
序 中看到 过这一 概念， 而 且经常 必须用 到它。 例如， 函数的 参数， 比方说 L， 表 面上看 是原子 
的， 而对其 进行更 仔细的 检查可 能发现 它是有 着复杂 结构的 对象， 比如， 具有连 接到其 他记录 
的字 段从 而能形 成表的 记录。 同样， 图 10-20 中确定 自动机 的状态 {0,  2} 也可以 用简单 的名称 
“5”  或 “a” 来 代替。 


10.4.3 子集构 造起效 的原因 


很 明显， 如果 乃是利 用子集 构造从 非确定 自动_ 构 建的， 那么乃 就是 确定自 动机。 原因 在于， 
对 每个输 入符号 JC 和 Z) 的每 个状态 而言， 我们 定义了 的某特 定状态 r, 它 满足从 5 到 7 的转 换的标 
号 中包含 X。 不过如 何得知 自动_[10 是等价 的呢？ 也就 是说， 我 们需要 知道， X 利 ■壬 意输 人序列 
axa2--ak, 当 且仅当 対妾受 …七 时， 在 下列情 况下， 自动机 D 到达 的状态 是 种接受 状态。 

(1)  从起 始状态 开始； 

(2)  并 且沿着 标记为 …七 的路径 行进。 

请 记住， 当且 仅当从 W 的起 始状态 有一条 标记为 … 的路径 能到达 AH 的 某个接 受状态 
时， N 方 会接受 ■•■ak  o 

乃 所做的 事情与 W 所 做的事 情之间 的联系 就更紧 密了。 如果 乃 具 有从它 的起始 状态到 标记为 
¥2〜~的 状态的 路径， 那么 被视为 自动初 的 某个状 态集的 集合又 就刚 好是从 的起始 状态开 
始 沿着某 标记为 …七 的 路径所 能到达 的状态 组成的 集合。 这种关 系如图 10-21 所示。 因 为我们 
已经定 义了， 只有在 S 中的 某一成 员是猶 勺 接受状 态时， 才是 D 的接受 状态， 所 以要得 出乃和 
接受 …七 或都 不接受 叫屮…％ ， 也就 是要得 出乃和 A/ ■是等 价的， 就只 需要图 10-21 所示的 关系。 


起始 


(a) 在 自动机 D 中 


起始 


K5) 


⑼ 在 自动机 iV 中 


图 10-21 非 确定自 动机 iV 的 操作与 对应的 确定自 动机 D 的操作 间存在 的关系 
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我 们需要 证明图 10-21 所示的 关系， 该证明 要对输 人字符 串长度 &进 行 归纳。 需要通 过对灸 
的 归纳来 证明的 正式命 题是， 从乃 的起始 状态开 始沿着 标记为 ap2 … ~ 的路 径到达 的状态 

&，•••，&}， 刚 好是从 # 的起始 状态开 始沿着 标记为 a% … ~ 的路 径到达 的状态 构成的 
集合。 

依据。 设 6  =  0。 长度为 0 的路 径将我 们留在 出发的 位置， 也 就是， 在 自动机 i 玲 W 的 起始状 
态中。 回想 一下， 如 果&是 的起始 状态， 乃的 起始状 态就是 Oo}。 因此 该归纳 命题对 A  =  0 来 
说 成立。 

归纳。 假设该 命题对 & 成立， 并考 虑输入 字符串 •  -.akak+l。 那么 标记为 巧七 • ，.akak+l 的从 
乃 的起 始状态 到状态 汹 路径 就如图 10-22 所示， 也就 是说， 在它针 对输入 七+1 进行到 7 前转换 （最 
后一次 转换） 之前， 会经 过某个 状态& 

起始  a\a2  •  •  •  cik 


图 10-22  ^是^ 在到 达状态 r 之前 到达 的状态 

通 过归纳 假设， 可以 假设沿 E 好是 自动机 W 从其 起始状 态沿着 标记为 … & 的路径 所能到 
达 的状态 组成的 集合， 并必 须证明 州彳 好是 从# 的起始 状态岀 发沿着 标记为 ap2  •  -akak+l 的 路径所 
能到达 的状态 组成的 集合。 该归 纳步骤 的证明 包含下 列两个 部分。 

(1)  必须 证明， r 不含 过多的 状态， 也就 是说， 如果? 是在 r 中 的#的 状态， 那 么堤从 的起始 
状态沿 着标记 为 •  -akak+x 的路径 可以到 达的。 

(2)  必须 证明， r 包含 足够的 状态， 也就 是说， 如 果堤从 AH 的 起始状 态沿着 标记为 
的路 径可以 到达的 状态， 那 么藏在 r 中。 

对⑴ 来说， 设? 在『中。 那么， 如图 10-23 所示， 在 ^ 中一 定存 在一个 状态& 可以 证实? 在 r 中。 
也就 是说， 在 V 中存 在从读 lj? 的 转换， 而且 它的标 号包含 ~+1。 根 据归纳 假设， 因为 5在^ 中 ，所 
以肯定 存在从 # 的起始 状态到 S 的标 记为 ap2 …七的 路径。 因此， 存在从 的起 始状态 到?， 标记 
为 •  --akak+x 的路 径。 


S  T 

图 10-23  S 中的 状态 s 解释了 为何将 状态通 [进 T 中 


现 在必须 证实 (2)， 也就 是如果 存在从 的 起始状 态到? 的， 标记为 ％a2 … ¥,+1的 路径， 那么 
掠尤在 r 中。 就 在这条 路径针 对输人 ~+1 进 行到? 的转换 之前， 肯定会 经过某 个状态 s。 因此， 存在 
从 M 的起始 状态开 始到& 标记为 a#2 …&的 路径。 根 据归纳 假设， s 在 状态集 ^ 中。 因为 # 具有从 
通 IJ? 而且标 号含有 ％+1 的转换 ，所以 应用到 状态集 ^ 和输 人符号 ~+1 上的子 集构造 需要? 被 放置到 r 
中。 因此? 在 r 中。 

在给定 归纳假 设的情 况下， 现 在就证 明了， 謂彳 好是由 7V 中从 W 的起始 状态开 始沿着 标记为 
的路径 可达的 状态组 成的。 这就 是归纳 步骤， 因 此可以 得岀， 沿着 标记为 ap2 
的路 径到达 的确定 状态机 i) 的 状态， 永 远都是 A/ 沿 着标号 相同的 路径可 达的状 态组成 的集合 。因 
为乃 的接 受状态 是那些 包含州 的某个 接受状 态的状 态集， 所以可 以得到 Z) 和 iV 接受 相同字 符串的 
结论， 也 就是说 Z) 和 7V 是等 价的， 所 以子集 构造是 “ 行得通 的”。 
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10.4.4  习题 

(1)  利 用子集 构造， 把 10.3 节习题 (3) 中的非 确定自 动机 转换成 确定自 动机。 

(2)  图 10-24a 到图 10-24d 中的非 确定自 动机 可以识 别什么 模式？ 

(3)  把图 10-24a 到图 10-24d 中的非 确定自 动 机转换 成确定 有限自 动机。 


自 动机的 最小化 

与 自动机 相关， 特 别是在 利用自 动机设 计电路 时会遇 到的一 个问题 就是， 执行 某给定 任务需 要多少 
状态。 也 就是说 ， 我 们可能 要问， 给 定某自 动机， 是否存 在状态 更少的 等价自 动机? 如 果这样 的话， 那么 
这样 的等价 自动机 中最小 的状态 数量是 多少？ 

事实 证明， 如果 将问题 限制在 确定自 动机的 范畴， 那么 与任意 给定自 动 机等价 的最小 状态确 定自动 
机是唯 一的， 而且很 容易找 到它。 关 键就在 于定义 确定状 态机两 个状态 和州 •么 时候是 等价的 ，也就 是说， 
对任意 的输入 序列， 分别从 ^和纟 出发 而且由 该序列 标记的 路径， 要么 都能到 达接受 状态， 要么 都不能 到达。 
如 果状态 和 纟是等 价的， 就没法 通过为 自动机 提供 输入来 区分这 两者， 因此就 可以把 和 (合并 为一个 状态。 
事 实上， 按 照如下 方式定 义不等 价的状 态要更 容易。 

依据。 如果 是接受 状态而 (是不 接受， 那么 和纟 是不等 价的， 反之 亦然。 

归纳。 如果存 在某输 入符号 JC , 使得针 对输入 x 存在 从状 态 s 和 (分别 到两个 已知 状态的 转换不 等价， 
那么 ^ 和纟就 是不等 价的。 

要让这 个测试 起效， 还 需要补 充一些 细节。 特 别要提 的是， 我 们可能 必须添 加一个 “ 停滯状 态”， 
它不接 受任何 输入， 而且 针对所 有输入 都存在 到它自 身的 转换。 由 于确定 自动机 可能针 对某个 给定符 
号 不存在 从某给 定状态 出发的 转换， 因此在 执行这 一最小 化程序 之前， 需 要针对 所有不 存在其 他转换 
的 输入， 添加 从任意 状态到 该停滯 状态的 转换。 可以注 意到， 不存 在类似 的用于 最小化 非确定 自动机 
的 理论。 


(4) * 某些 自动机 具有一 些根本 不存在 转换的 “ 状态- 输入” 组合。 如 果状态 s 不存 在针 对符号 x 的转 换， 
我 们就可 以添加 一种针 对符号 x 的、 从通 U 某个 特殊的 “停滞 状态” 的 转换。 停滞状 态是不 接受状 
态， 而且 针对任 意输人 符号都 有到其 自身的 转换。 证明， 添加了  “停滞 状态” 的自 动机与 原有的 
自动 机是等 价的。 

(5)  证明， 如 果为确 定自动 机添加 了停滞 状态， 就可 以得到 具有从 起始状 态岀发 而且标 记为每 个可能 
字符串 的 路径的 等价自 动机。 

(6) * 证明， 如果对 确定自 动机进 行子集 构造， 那 么要么 得到相 同的自 动机， 其中每 个状态 s 都重 命名 
为 {4, 要么添 加了停 滞状态 （对应 空状态 集）。 

(7)  ** 假 设有某 确定自 动机， 并要 把每个 接受状 态变成 不接受 状态， 还要 把每个 不接受 状态变 成接受 
状态。 

(a)  如何 用旧自 动机的 语言来 描述新 自动机 接受的 语言？ 

(b)  如果先 为原自 动机加 上停滞 状态， 重复 (a) 小题。 

(c)  如果 原自动 机是非 确定自 动机， 重复 (a) 小题。 
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{a，b}  {a,b} 


{a，b} 

c) ( ) 


a  {a，blQ  {a，blQ  {a；bl0 

{a，b，c}  {a,b,c} 


图 10-24 非确定 自动机 


10.5 正则 表达式 

自动机 定义了 模式， 即 表示自 动机的 图中， 作为 从起始 状态到 某个接 受状态 的路径 标号的 
字符串 组成的 集合。 在本 节中， 我们遇 到了正 则表达 式这种 用来定 义模式 的代数 方法。 正则表 
达 式与我 们熟悉 的算术 表达式 代数， 以及第 8 章中遇 到的关 系代数 都是相 似的。 有趣 的是， 可以 
用 正则表 达式代 数表示 的模式 组成的 集合， 刚 好与可 以用自 动机描 述的模 式组成 的集合 相同。 


表 示方式 的约定 

我 们还将 继续使 用等宽 字体来 表示出 现在字 符串中 的字符 。与 某给定 字符对 应的正 则表达 
式原子 操作数 则会用 加粗的 该字符 来表示 。 例如， a 是对 应字符 a 的正 则表 达式。 在我们 需要使 
用变 量时， 会把 它写为 斜体。 变量在 这里用 来代表 复杂的 表达式 。例 如， 使 用变量 /etor 表 示“任 
意 字母” 这个 我们很 快就要 看到其 正则表 达式的 集合。 
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10.5.1 正则表 达式的 操作数 

与所有 的代数 一样， 正则 表达式 也具有 某几类 原子操 作数。 在 算术代 数中， 原子操 作数是 
常数 （比 如整 数或实 数）， 或可能 的值是 常数的 变量； 而对关 系代数 而言， 原子操 作数要 么是固 
定的 关系， 要么 是可能 的值为 关系的 变量。 在 正则表 达式代 数中， 原子操 作数是 如下几 种中的 
一种。 

(1)  字符； 

(2)  e 符号； 

(3) 0 符号； 

(4)  值可能 为由正 则表达 式定义 的任意 模式的 变量。 

10.5.2 正 则表达 式的值 

任 意代数 中的表 达式都 具有某 一类型 的值。 对算术 表达式 来说， 值 可以是 整数、 实数 ，或 
是 我们可 以处理 的任意 类型的 数字。 对关 系代数 而言， 表达 式的值 就是个 关系。 

对正则 表达式 来说， 每 个表达 式的值 都是由 通常被 称为语 言的字 符串集 合组成 的模式 。由 
正则表 达式五 表示的 语言就 被称为 z ⑹， 或者是 “五 的语 言”。 原子 操作数 的语言 有如下 定义。 

(1)  如果 X 是任意 字符， 那 么正则 表达式 X 表示 语言 {x}; 也就 是说， Z(x)={x}o 请注意 ，该 
语言 是包含 一个字 符串的 集合， 该字 符串的 长度为 1， 而且 字符串 中唯一 的位置 被字符 X 占据。 

(2) Z(e)={e}0 作为正 则表达 式的特 殊字符 e 表示 只含 一个空 字符串 （或 者说 长度为 0 的字符 
串） 的 字符串 集合。 

(3) Z(0H0}o 作为正 则表达 式的特 殊字符 0 表 示字符 串集合 为空。 

请 注意， 我们没 有定义 原子操 作数为 变量时 的值。 只有 在将变 量替换 为具体 的表达 式时， 
才 可以为 这样的 操作数 取值， 而 且它的 值就是 相应的 表达式 的值。 

10.5.3 正则 表达式 的运算 

正则 表达式 中运算 符共有 3 种。 这些 运算符 都可以 用括号 分组， 就像我 们所熟 悉的代 数中那 
样。 和 代数表 达式中 所做的 一样， 存在 一些让 我们可 以忽略 某些括 号对的 优先次 序和结 合律。 
在 探讨完 这些运 算后， 我们 将会描 述关于 括号的 规则。 

1 •并 

第 一种， 也是 我们最 熟悉的 一种运 算符就 是并运 算符， 我们 要将其 表示为 I。 ® 为正 则表达 
式取 并的规 则是， 如果 i? 和 ^ 为两个 正则表 达式， 那么 表示 i? 和 ^ 所表示 的语言 取并。 也就是 
说， =L(R)uL(S) 。 回想 一下， 1 ⑻和 都是字 符串的 集合， 所以为 它们取 并的概 
念 是说得 通的。 

♦ 示例 10.1 1 

我 们知道 a 是表 7K {a} 的 正则表 达式， 而 b 是表 的 正则表 达式。 因此 a 丨 b 就是表 7K{a， 
b} 的 正则表 达式。 这是一 个包含 a 和 b 这两个 长度为 1 的字 符串的 集合， 

同样， 可以写 出诸如 (a|b)|c 这 样的表 达式， 来表 示集合 {a， b， c}。 因为取 并是一 种有结 


①在正 则表达 式中， 加号 + 也常用 作并运 算符， 不过在 这里并 不这样 表示。 
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合 性的运 算符， 也就 是说， 在为 3 个集 合求并 集时， 以 任意次 序组合 这些操 作数都 是没关 系的， 
可 以忽略 括号， 并直接 将表达 式写为 albli 
2 .串接 

正则表 达式代 数的第 二个运 算符叫 作串接 （concatenation)。 它 是用没 有任何 运算符 符号来 
表 示的， 就像在 写乘法 表达式 时有时 会省略 运算符 那样， 例如， 算术表 达式以 就表示 a 和纟 的积。 
和取 并运算 一样， 串接运 算也是 二元的 中缀运 算符。 如果 尺 和 *S 是 正则表 达式， 那么 辟尤是 和 S 
的串接 。 ® 

狀表 示的语 是由语 m ⑻和 Z ⑹按 照以下 方式形 成的。 对 Z ⑻ 中的各 字符串 r 以及 L ⑻ 
中的各 字符串 s 来说， 字符串 r 和猶 串接 是在 中的。 回 想一下 两个表 （比 如字 符串） 的 串接， 
是通过 按次序 取第一 个表中 的 元素， 并在 它们之 后按次 序接上 第二个 表的元 素而形 成的。 


类型 之间的 一些微 妙区别 

读者不 应该弄 混看似 相似， 实则差 别巨大 的多种 对象。 例如， 空 字符串 e 就和 空集 0 不同， 
而这 两者又 都与只 包含空 字符串 的集合 {e  } 不同。 空字 符串的 类型是 “字符 串”或 “字符 表”， 
而空集 和只含 空字符 串的集 合都是 “ 字符串 集合” 类 型的。 

我 们还应 该记得 类型为 “ 字符” 的字符 a， 类型为 “字 符串” 的 长度为 1 的 字符串 a， 以及 
类型为 “ 字符串 集合” 的正则 表达式 a 的值 {a} 之间的 区别。 还要 注意到 在其他 的上下 文中， {a} 
可能 表示包 含字符 a 的集合 ，而 且我 们没有 表示方 式上的 约定用 来区分 {a} 的这两 种含义 。不 过， 
在本 章的内 容中， {a} 通常 都具有 前一种 解释， 也就是 “ 字符串 集合” 而非 “ 字符集 合”。 


♦ 示例 10.12 

设尺 是正则 表达式 a, 因此 就 是集合 {a}。 再设 5 是正则 表达式 b, 所以 Z(5)  =  {b}0 那么 
辟尤是 表达式 ab。 要形成 需要取 1(7?) 中的 每个字 符串， 将其与 Z ⑻中 的每个 字符串 串接。 
在 这种简 单的情 况中， 和 Z(5) 都 是单元 素集， 所以对 其二者 来说都 各自只 有一种 选择。 我们 
从1(幻 中选择 a， 并从 ZCS) 中选择 b， 然后将 这两个 长度为 1 的 表串接 起来， 就 得到了 字符串 ab。 
因此 就是 {ab}。 

可以 对示例 10.12 进行 概括， 得岀 任意用 粗体表 示的字 符串， 都 是表示 由一个 字符串 （相应 
字 符组成 的表） 构成的 语言的 正则表 达式。 比如， then 就是 语言为 {then} 的正则 表达式 。我 
们将 看到， 串接是 一种具 有结合 性的运 算符， 所以不 管正则 表达式 中的字 符如何 分组都 是没关 
系的， 而 且不需 要使用 括号。 

♦ 示例 10.13 

现 在来看 看两个 语言不 是单元 素集的 正则表 达式的 串接。 设 R 是正则 表达式 a|(ab)。 @ 语言 
1(7?) 就是 L ⑷和 Z(ab) 的 并集， 即 {a,  ab}。 设 S 是正则 表达式 c|(cb)。 同样， L(S)^  {c,  cb}。 正 


① 严格 地讲， 应该把 写为⑻ ⑺， 以强调 i? 和 ^ 是分 开的表 达式， 因为 优先级 规则， 它们各 自的组 成部分 一定不 
能 混合在 一起。 这种 情况与 我们将 表达式 与 J+Z 相乘时 类似， 一 定要将 积写为 请 注意， 因 为乘法 
要先 于加法 计算， 所 以如果 把括号 去掉， 得到的 表达式 w+_xy+Z 就不能 解释为 w+;c 与 的积 了。 正 如我们 将要看 
到的， 串接与 取并具 有的优 先关系 使得它 们分别 类似与 乘法和 加法。 

②  正如 接下来 将要看 到的， 串接要 优先于 取并， 所以这 里的括 号是多 余的。 
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则表达 式尺織 是 (a|(ab))(  c|(cb))。 请 注意， 出于 运算优 先级的 原因， 财 上的 括号是 必要的 。 


be 


a  ac  abc 

ab  abc  abbe 


图 10-25 形成 {a,  ab} 和 {c， cb} 的串接 

要找岀 ZCR5) 中的字 符串， 就要 将^⑻ 中的 两个字 符串与 Z0S) 中 的两个 字符串 —— 配对 。这 
一 配对方 式如图 10-25 所示。 从 Z(7?) 中的 a 和 中的 c， 可 以得到 字符串 ac。 而 字符串 abc 可以 
用 两种不 同方式 得到， 要么是 (a)(bc)， 要么是 (ab)(c)。 最后， 中的 ab 与 1(5) 中的 be 串接就 
得到 字符串 abbe。 因此 X( 兄 S) 就是 {ac ， abc ,  abbe}。 

请注意 ，语言 中的字 符串数 量不可 能大于 Z ⑻中 字符串 数量和 中字符 串数量 的积。 
事 实上， 中字符 串的数 量刚好 就是这 个积， 除非存 在一些 “巧 合”， 也就是 同一字 符串可 
以通过 两种或 多种不 同方式 形成的 情况。 示例 10.13 就是这 样一个 例子， 其中 字符串 abc 就可以 
用两 种方式 生成， 因此 中 就只有 3 个 字符串 ，要比 尺和5 的语 言中字 符串数 量 之积少 1。 同样， 
语言 I  5) 中 字符串 的数量 也不大 于语言 和 Z0S) 中字 符串数 量的和 ，而且 在1(幻 和 Z(5) 中有 
相同 字符串 时只可 能比该 和小。 在讨论 这些运 算符的 代数法 则时我 们还将 看到， 正则表 达式的 
取并和 串接， 与算术 运算符 + 和 x 之间， 存在 一种相 近但不 精确的 类比。 

3. 闭包 

第三 个运算 符是克 林闭包 （ Kleene  closure  ) 或直 接称为 闭包。 ® 它是个 一元的 后缀运 算符， 
也就 是说， 它接 受一个 操作数 并且出 现在该 操作数 之后。 闭 包是用 星号表 示的， 所以 尺* 是正则 
表达式 i? 的 闭包。 因 为闭包 运算符 有着最 高的优 先级， 所以通 常需要 在尺两 侧放上 括号， 将其写 
为⑻ *。 

闭包 运算符 的作用 是表示 “i? 中 的字符 串没有 出现或 多次出 现”。 也就 是说， 丄巧*) 由 下列内 
容 组成。 

(1)  空 字符串 e， 可以将 其视作 i? 中 的字符 串没有 出现。 

(2)  在 中的 所有字 符串， 表示 1 ⑻中的 字符串 岀现一 次。 

(3)  在 中的 所有字 符串， 也就是 与 自身的 串接， 表示 中 的字符 串出现 两次。 

(4)  姐 (RRR)、 等中的 所有字 符串， 表示 中 的字符 串岀现 3 次、 4 次和更 多次。 

可以 有如下 非正式 的表示 


R*=e\  R\RR\RRR\ ■■- 

不过， 一定要 理解， 等号 右侧的 表达式 并不是 正则表 达式， 因为 它包含 无数个 取并运 算符。 
而所 有正则 表达式 都是用 有限数 量的这 3 种运 算符构 建的。 

♦ 示例 10.14 

设尺 =a。 那么 是 什么？ 当然， e： 肯定 在该语 言中， 因为它 一定在 任意闭 包中。 WiL(R) 
中 唯一的 字符串 a 也在 该语 言中， 还有 中的 aa， ZCRiN) 中的 aaa， 等等。 也就 是说， Z(a*) 
是由含 0 个 或多个 a 的字 符串 组成的 集合， 也就是 {e ， a,  aa， aaa， ...}。 


① StevenC.Kleene 最早 撰写了 描 述正则 表达式 代数的 论文。 
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♦ 示例 10.15 

现在设 R 是正则 表达式 a  lb， 那么 Z(i?)={a， b}, 并考虑 是 什么。 该 语言还 是含有 e ， 
表示 Z(i?) 中字符 串没有 出现。 R 中的 字符串 出现一 次就为 带来了 {a,  b}。 出 现两次 就给我 
们 4 个 字符串 {aa， ab， ba， bb} ,  3 次岀现 就给了 我们由 a 和 （或） b 组成 长度为 3 的 8 个字 符串， 
以此 类推。 因此 是 所有由 a 和 （或） b 组成 的任意 有限长 度的字 符串。 

10.5.4 正则表 达式运 算符的 优先级 

正如我 们在前 面的内 容中非 正式提 到的， 正则表 达式的 3 个运算 符并、 串接和 闭包之 间存在 
约定的 优先级 次序。 这 一次序 如下。 

(1) 闭包 （ 最 尚）； 

⑺ 然后是 串接； 

(3) 然后是 并 （ 最 低)。 

因此， 在解释 任何正 则表达 式时， 首先要 为闭包 运算符 分组， 也就是 找出具 有表达 式形式 
(即 如果存 在括号 的话， 则它 们是配 对的） 的紧邻 某给定 * 左侧的 最短表 达式。 可 以给该 表达式 
和相应 的*加 上一对 括号。 

接 下来， 要 从左边 起考虑 串接运 算符。 对每个 串接运 算符， 要 找到紧 邻其左 侧的最 小表达 
式 并找到 紧邻其 右侧的 最小表 达式， 再 给这一 对表达 式加上 括号。 最后， 要从左 侧起考 虑取并 
运 算符。 找到紧 邻每个 取并运 算符左 右的表 达式， 并 这这一 对中间 有着取 并符号 的表达 式周围 
加上 括号。 

♦ 示例 10.16 

考虑 表达式 a|bc*d。 首先分 析*。 该表达 式中只 有一个 *, 而 且在其 左侧的 最小表 达式为 c。 
因此可 以把该 * 与他 的操作 数分到 一组， 就成了 a  I  b  (c* )  d。 

接 下来， 要 考虑上 述表达 式中的 串接。 共 有两次 串接， 一次是 b 和左 括号之 间的， 另一次 
是在右 括号和 d 之间 的。 首 先分析 第一次 串接， 我 们看到 b 就是 紧邻左 侧的， 而到 右侧就 必须到 
将右 括号包 括在内 为止， 因为表 达式的 括号必 须是平 衡的。 因此， 第一次 串接的 操作数 分别是 b 
和 (c*)。 给它们 周围加 上括号 就得到 表达式 

a  |  (b(c*))d 

对第二 次串接 来说， 紧 邻其左 的最短 表达式 现在是 ，而 紧邻 其右的 最短表 达式是 d。 
在给这 次串接 的操作 数分组 加上括 号后， 表达式 就成了 

a|((b(c*))d) 

最后， 必须考 虑取并 运算。 该表达 式中总 共有一 次取并 运算， 它 的左操 作数为 a， 而其右 
操 作数就 是上述 表达式 其余的 部分。 严格 来说， 必 须为整 个表达 式再加 上一层 括号， 得到 

(a|(b(c*)d)) 

不 过最外 层的括 号是多 余的。 

10.5.5 正则表 达式的 其他一 些示例 

在本节 最后， 我们 要给出 一些更 复杂的 正则表 达式。 
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♦ 示例 10.17 

可以 将示例 10.15 中 的思路 扩展到 “由符 号31、 &、•••、 〜组 成的 任意长 度的字 符串” 以及 
如下 正则表 达式： 

(al|a2|  … |an)* 

例如， 可 以按照 以下方 式描述 C 语言标 识符。 首先， 定义 正则表 达式： 

letter  =  A|B|...|Z|a|b|...|z|_ 

这就 是说， C 语 言中的 “ 字母” 包括 大小写 英文字 母相下 划线。 同样， 我们 还定义 了正则 
表 达式： 

digit  =  0|1|...  I  9 

那 么正则 表达式 

letter{letter\digit)  * 

就 表示由 字母、 数 字和下 划线组 成的所 有不以 数字开 头的字 符串。 

♦ 示例 10.18 

现在来 考虑一 个更难 写出的 正则表 达式： 在示例 10.2 中 讨论过 的反弹 过滤器 问题。 回想一 
下， 我 们描述 了这样 一种自 动机， 粗略 地讲， 就是只 要输入 的结尾 是一列 1， 就 会输出 1。 也就 
是说， 只 要在一 行中看 到两个 1， 就 认为我 们已经 在一列 1 中， 不过 在确定 看到的 是一列 1 后 ，一 
个 0 的 出现并 不会让 我们推 翻这一 结论。 因此， 每当 输入的 结尾有 由两个 1 组 成的序 列时， 只要 
它后 面跟上 的内容 中每个 0 之 后要么 立即跟 上一个 1 ， 要 么是当 前为止 看到的 最后一 个输入 字符， 
示例 10.2 中自动 机的输 岀就是 1。 可以 用如下 正则表 达式表 示这种 情况。 

(011)*11(1101)*(^  10) 

要 理解该 正则表 达式， 首先要 注意到 （oil)* 表示由 0 和 1 组成的 任意字 符串。 这些字 符串后 
面一 定要跟 上两个 1， 就如 表达式 11 所表示 的。 因此 (0  1 1)*11 就是 所有由 0 和 1 组成 且结尾 （至 
少） 有两个 1 的字 符串。 

接下来 （0  1  01)* 表示 所有由 0 和 1 组成， 而且其 中所有 0 后面 都跟着 1 的字 符串。 也就是 ，该 
表达式 语言中 的字符 串是以 任意次 序串接 任意数 量的 字符串 1 和 01 构 成的。 尽管 1 让我们 在任意 
时刻都 可以向 正在形 成的字 符串添 加一个 1， 不过 01 强 迫我们 在任何 0 之 后都加 上一个 1。 因此 
表达式 （0  1 1)  *11(1101)  * 表示 所有由 0 和 1 组成的 ，以 两个 1 后 面加上 其中的 0 都要 立即加 上一个 1 
的任意 序列结 尾的字 符串。 而最后 的因子 (eio) 表示 “ 可选的 0”， 也就 是说， 刚 刚描述 的字符 
串后面 可能还 有一个 0, 也可能 没有， 要看 我们的 选择。 

10.5.6 习题 

(1)  在示例 10. 13 中， 我 们描述 了正则 表达式 (a lab)  (cl cb) ， 并看到 它的语 言是由 ac、 abc 和 abbc 这 
3 个字 符串组 成的， 也就 是说， 一个 a 和一个 c, 中间被 0 到 2 个 b 分隔 开。 再写 两个定 义该语 言的正 
则表 达式。 

(2)  写岀定 义下列 语言的 正则表 达式。 

(a)  对应 6 个 C 语言比 较运算 符=、 <  =、 <、 >=、 > 和！ = 的字 符串。 

(b)  所有由 0 和 1 组成且 结尾为 0 的字 符串。 

(c)  所有由 0 和 1 组成 且至少 有一个 1 的字 符串。 

(d)  所有由 0 和 1 组成 且至多 有一个 1 的字 符串。 

(e)  所有由 0 和 1 组 成且至 右起第 三位是 1 的字符 串。 

(f)  所有 由小写 字母按 已排序 次序组 成的字 符串。 


10.6  UNIX 对正则 表达式 的扩展  455 


(3)  * 写出定 义下列 语言的 正则表 达式。 

(a)  所有由 a 和 b 组成， 满足 其中由 a 组成 的子序 列长度 都是偶 数的字 符串。 也就 是说， 诸如 
bbbaabaaaa、 aaaabb 和 e 这样 白勺字 符串， 而 abbabaa 和 aaa 就 不是。 

(b)  由 C 语言中 float 类型的 数字表 示的字 符串。 

(c)  由 0 和 1 组成 且具有 偶校验 （即含 偶数个 1  ) 的字 符串。 提示： 将偶 校验字 符串视 作具有 偶校验 
的基本 字符串 （要么 是一个 0, 要么 是只由 0 分隔 的一对 1) 的 串接。 

(4)  ** 写岀定 义下列 语言的 正则表 达式。 

(a)  不是关 键字的 C 语言 标识符 组成的 集合。 如果 忘记了 某些关 键字也 是没关 系的， 本题的 重点在 
于表示 那些不 在某个 相当大 的字符 串集合 中的字 符串。 

(b)  所有由 a、 b 和 c 组成， 而 且满足 任何两 个连续 位置上 的字母 都不相 同的字 符串。 

(c)  由两个 不同的 小写字 母形成 的所有 字符串 构成的 集合。 提示： 大家 可以用 “ 蛮力” 来 解决问 
题， 不过 用两个 不同的 字母构 成的字 母对有 650 个。 更 好的思 路是进 行一些 分组。 例如， 相对 
较短的 表达式 (a  lb 丨 … I m)(n I  o  I  •••  I  z) 就能 覆盖这 650 个字母 对中的 169 个。 

(d)  所有 由二进 制数字 0 和 1 组 成的， 表示为 3 的倍 数的整 数的字 符串。 

(5)  根据 取并、 串 接和闭 包运算 符的优 先级， 为 以下正 则表达 式加上 括号， 以表示 操作数 的恰当 
分组。 

(a)  a  I  be  I  de 

(b)  a  I  b*|  (a  I  b)*a 

(6)  从下 列正则 表达式 中删除 多余的 括号， 也就 是说， 删除 那些分 组可以 由运算 符的优 先级以 及取并 
和 串接的 结合性 （因此 为邻接 的取并 或邻接 的串接 分组是 无关紧 要的） 暗 示岀的 括号。 

(a)  (ab)(cd) 

(b)  (a I  (b(c)*)) 

(c)  (((a)  Ib(cld)) 

(7)  * 描 述由以 下正则 表达式 定义的 语言。 

(a)  0 1  e 

(b)  e  a 

(c)  (alb)* 

(d)  (a*b*)* 

(e)  (a*ba*b)*a* 

(f)  e* 

(g)  R** , 其中 i? 是任意 正则表 达式。 
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UNIX 操作系 统中有 不少命 令利用 了类似 正则表 达式的 表示法 来描述 模式。 即便对 UNIX 操 
作系 统与其 中的大 部分命 令并不 熟悉， 了解这 些表示 法也还 是很实 用的。 我们发 现正则 表达式 
至少用 在如下 3 类命 令中。 

(1)  编 辑器。 UNIX 编辑器 ed 和 vi， 以 及大多 数现代 文本编 辑器， 让用 户可以 在找到 某给定 
模式实 例的位 置扫描 文本。 这一模 式是由 正则表 达式指 定的， 虽然没 有一般 的取并 运算符 ，只 
有下 面将要 讨论的 “字符 类”。 

(2)  模式匹 配程序 grep 及类似 程序。 UNIX 命令 g rep 会对文 件进行 扫描， 检 查文件 的每一 
行 。如 果该 行包含 某个 能与由 正则 表达 式指定 的模式 匹配 的 子串， 就将该 行打 印岀来 （ grep 代 
表 globally  search  for  regular  expression  and  print , 即全局 查找正 则表达 式并打 印）。 grep 命令本 
身 只接受 正则表 达式的 子集， 而扩展 的命令 egrep 则 可以接 受完整 的正则 表达式 表示， 而且包 
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含 了一些 其他的 扩展。 命令 awk 允许 我们进 行全面 的正则 表达式 搜索， 并 且把文 本行当 作关系 
的 元组来 处理， 从而使 我们可 以对文 件执行 选择和 投影这 样的关 系代数 运算。 

(3) 词法 分析。 UNIX 命令 lex 对编写 编译器 代码及 类似任 务而言 是很使 用的。 编译 器第一 
件必 须完成 的事就 是将程 序分割 为一个 个标记 （token), 它们 是逻辑 上结合 在一起 的子字 符串。 
标记 的例子 包括标 识符、 常量、 then 这 样的关 键字， 以及 + 或 <=这 样的运 算符。 每种标 记类型 
都可以 由一个 正则表 达式来 指定， 比 方说， 示例 10.17 就展 示了如 何指定 “标识 符” 标 记类。 lex 
命 令让用 户可以 用正则 表达式 指定标 记类。 这 样就形 成了可 以用作 词法分 析器的 程序， 也就是 
可 以 把输人 分解为 标记的 程序。 

10.6.1  字符类 

我们经 常需要 写出表 示字符 集合， 或 者严格 地讲， 是表示 长度为 1 的 字符串 （每 个字 符串都 
是 由集合 中不同 的字符 构成） 组成的 集合的 正则表 达式。 因此， 在示例 10.17 中， 我们定 义了表 
达式 示 任何由 一个大 写字母 或小写 字母组 成的字 符串， 并 定义了 表达式 fi%/? 表示 任何由 
一个 数字构 成的字 符串。 这些表 达式都 是相当 长的， 而 UNIX 提供 了一些 重要的 简写。 

首先， 可 以用方 括号把 任意字 符表括 起来， 用来代 表对这 些字母 取并的 正则表 达式。 这样 
的 表达式 就 叫作字 符类。 例如， 表达式 [aghinostw] 表示出 现 在单词 wa shington 中的 字母组 
成的 集合， 而 [aghinostw]* 则 表示只 由这些 字母形 成的字 符串所 构成的 集合。 

其次， 我 们并非 总是需 要明确 地列出 所有的 字符。 回想 一下， 字母几 乎一直 都是用 ASCII 
编 码的。 这种 编码会 为各种 字符指 定相应 的位串 （很自 然地就 可以解 释为整 数）， 而且它 是以一 
种合理 的方式 来完成 这一工 作的。 例如， ASCII 编 码为大 写字母 分配了 连续的 整数。 同样 ，它 
也 为小写 字母以 及数字 分配了 连续的 整数。 

如果 在两个 字符间 加上破 折号， 就 不仅表 示这些 字符， 而且表 示了编 码在这 两个字 符编码 
之间的 所有字 符。 

♦ 示例 10.19 

我们可 以通过 [A-Za-z] 定义大 写字母 与小写 字母。 前 3 个字符 A-Z 表示编 码处于 A 和 Z 之间 
的所有 字符， 也就 是所有 的大写 字母。 而接 下来的 3 个字符 a-z 则表 示所有 的小写 字母。 

顺便提 一句， 因为破 折号有 这样一 种特殊 含义， 所 以如果 想要定 义包含 -的字 符类， 就一 
定 要谨慎 行事。 必须 把破折 号放在 这列字 符的第 一个位 置或最 后一个 位置。 例如， 可 以通过 
[-  +  */] 来指定 4 四 种算术 运算符 组成的 集合， 但如 果写成 [  +  -*/] 的形 式就是 错误的 ，因为 +  -* 
这样 的范围 会表示 编码在 +和* 的编 码之间 的所有 字符。 

10.6.2 行 的开头 和结尾 

因为 UNIX 命令经 常要处 理单行 文本， 所以 UNIX 正则表 达式表 示法中 包含了 用于表 示行的 
开头 和结尾 的特殊 符号。 符号 〃 表示 行的 开头， 而$表 示行的 结尾。 

♦ 示例 10.20 

10.3 节图 10-12 中的 自动机 是从一 行的开 头处启 动的， 它 接受的 文本行 刚好是 那些只 由单词 
Washington 中的 字母组 成的文 本行。 可 以将这 种模式 表示为 UNIX 正则表 达式： 

A [aghinostw]* $。 口头 上讲， 该模 式就是 “行的 开头， 后 面跟上 由单词 Washington 中的 字母组 
成 的任意 序列， 再加上 行的结 尾”。 
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举个 这种正 则表达 式使用 方式的 例子， UNIX 命 令行： 

grep ' A [aghinostw] *$  /usr/ diet /words 

将 打印出 词典中 所有只 由来自 Washington 的字符 组成的 单词。 在 这种情 况下， UNIX 要求该 
正则表 达式被 写为引 用的字 符串。 这一 命令的 效果就 是指定 的文件 /usr/dict /words 中每一 
行 都会被 检查。 如 果它含 有任何 处在由 该正则 表达式 表示的 字符串 集合中 的子字 符串， 那么这 
一 行就要 被打印 岀来， 否则这 一行就 不会被 打印。 请 注意， 这一行 的开头 符号与 结尾符 号已然 
存 在了。 假设 它们不 存在。 因为 空字符 串是在 由正则 表达式 [aghinostw]* 表示 的语言 中的， 
所以我 们会发 现每一 行都有 一个子 字符串 （即 e  ) 位 于该正 则表达 式的语 言中， 因此每 一行都 
会 被打印 出来。 


为字符 赋予字 面意义 

顺便说 一下， 因 为字符 〃和$ 在 正则表 达式中 被赋予 了特殊 意义， 所以看 起来没 办法在 
UNIX 正 则表达 式中指 定这些 字符本 身了。 不过， UNIX 用到了 反斜杠 \， 作 为转义 字符。 如果 
我们 在字符 〃或$ 之 前加上 反斜杠 ，那么 这两个 字符形 成的组 合就会 被解释 为第二 个字符 的字面 
意义， 而不是 其特殊 含义。 例如 \$ 表示 UNIX 正则表 达式中 的$ 字符。 同样， 两 道反斜 杠就被 
解释为 一个反 斜杠， 而不含 有其转 义字符 的特殊 意义。 而 UNIX 正 则表达 式中的 字符串 \\$ 表 
示的是 反斜杠 字符后 面跟 上行的 结尾。 

还有不 少 其他的 字 符也被 UNIX 在某 些情形 下 赋予了 特殊 意义， 而这 些字符 也总是 能表示 
它们 的字面 意义， 也 就是， 通 过在它 们之前 使用反 斜杠来 “ 除掉” 它们的 特殊意 义。 例如 ，只 
有这样 处理方 括号， 方 括号在 UNIX 正则表 达式中 才 不会被 解释为 字 符类分 隔符。 


10.6.3 通配符 

符号. 在 UNIX 正则 表达式 中代表 “除 换行符 之外的 任意字 符”。 

♦ 示例 10.21 

正则 表达式 

• *a*e. *o. *u. 

表 示按次 序包含 5 个元音 字母的 所有字 符串。 我们可 以利用 grep 与该 正则表 达式来 扫描词 
典， 查找 单词中 5 个元音 字母按 递增次 序岀现 的所有 单词。 不过， 如果忽 略掉开 头和结 尾位置 
的 .*， 处理 将更具 效率， 因为 grep 是按 子字符 串搜索 指定的 模式， 而不 是整行 搜索， 除 非我们 
显 式地包 含了表 示行开 头和行 结尾的 符号。 因 此命令 

grep ' a . *e . *i . *u '  /use /diet /words 

将会找 到含有 子序列 aeiem 的 所有单 词并将 其打印 岀来。 

这 些点号 会匹配 除字母 之外的 字符， 这一实 情并不 重要， 因为在 /usr/dict /words 文件 
中除了 字符和 换行符 之外没 有其他 字符。 不过， 如果点 号可以 匹配换 行符， 那么 这一正 则表达 
式就 会允许 grep —次 使用多 行来找 出依次 出现的 5 个元音 字母。 不 过像本 例这样 的例子 都是点 
号被定 义为不 匹配换 行符的 例子。 
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10.6.4 额外的 运算符 

UNIX 命令 awk 和 egrep 中 的正则 表达式 还含有 一些额 外的运 算符， 具体 如下。 

(1)  与 grep 不同 的是， awk 和 egrep 命 令还允 许取并 运算符 | 出现 在它 们的正 则表达 式中。 

(2)  一元 后缀运 算符? 和 + 没有允 许我 们定义 额外的 语言， 但它们 通常会 让表示 语言的 工作变 
得更简 单。 如果 是 正则表 达式， 则 i?? 代表 e|i? ， 也就是 可选的 i?。 所以 是 矿 
代表 狀*， 或者 等价地 讲就是 “i? 中 的单词 出现一 次或多 次”。 因此， L(R+)=L(R)uL(RR)u 
L(RRR) …。 特 别要说 的是， 如果 e 在 ZCR) 中， 那么 和 1(尺*) 表示 相同的 语言。 而如果 e 不 
在 中， 么 1(尺+) 就表示 运 算符? 和 +与* 有着 相同 的结合 性与优 先级。 

♦ 示例 10.22 

假设我 们想通 过正则 表达式 来指定 由非空 数字串 与一个 小数点 组成的 实数。 将该表 达式写 
为 [0-9]*\.[0-9]* 是不正 确的， 因 为这样 一来， 只由 一个点 号组成 的字符 串也会 被视作 实数。 
该表达 式利用 egrep 的一种 写法是 

[0-9]+  \.  [0-9]*\.  [0-9]+ 

在 这里， 取并的 第一项 涵盖了 那些小 数点左 侧至少 有一个 数字的 实数， 而第 二项则 涵盖了 
以 小数点 开头， 因 此在小 数点后 必须至 少有一 位数字 的那些 实数。 请 注意， 放在 点号之 前的反 
斜杠是 为了表 明这里 的点号 不具有 约定的 “通 配符” 含义。 

♦ 示例 10.23 

利 用如下 egrep 命令可 以扫描 输人中 那些字 母严格 按照字 母表增 序排列 的行。 

egrep ， ~a?b?c?d?e?f ?g?h?i?j ?k?l?m?n?o?p?q?r?s?t?u?v?w?x?y?z?$ J 

也就 是说， 我们会 扫描每 一行， 看看在 行的开 头和结 尾之间 是否有 可选的 a、 可选的 b， 等 
等。 例如， 含 有单词 adept 的一 行就能 匹该表 达式， 因为 a、 d、 e、 p 和 t 之后 的? 可 以解释 为“出 
现一 次”， 而其 他的? 可以 解释为 “ 没有出 现”， 也就是 e：。 

10.6.5 习题 

(1)  为以下 字符类 写岀表 达式。 

(a)  所 有属于 C 语言 运算 符和标 点符的 字符， 例如 + 和圆 括号。 

(b)  所有小 写元音 字母。 

(c)  所有 小写辅 音字母 。 

(2)  * 如果可 以使用 UNIX, 编写 egrep 程 序检查 /usr/dict /words 文件， 并找 到下列 单词： 

(a)  所有以 dous 结尾的 单词； 

(b)  所有 只含一 个元音 字母的 单词； 

(c)  所 有原音 字母与 辅音字 母交替 岀现的 单词； 

(d)  所 有含四 个或更 多个连 续辅音 字母的 单词。 

10.7 正 则表达 式的代 数法则 

两个正 则表达 式是可 以表示 同一语 言的， 就像两 个算术 表达式 可以表 示其操 作数的 相同函 
数 那样。 举例 来说， x+y 和: f+jc 这两个 表达式 就表示 X 和；; 的相同 函数。 同样， 不管 用什么 正则表 
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达式来 替换财 正则 表达式 和* S|i? 都表 示同一 语言， 证据 就是取 并运算 也是具 有交换 性的。 

简化正 则表达 式往往 是很实 用的。 我们很 快就会 看到， 在根据 自动机 构造正 则表达 式时， 
经常 会构造 出过于 复杂的 正则表 达式。 代数等 价可以 让我们 “ 简化” 表 达式， 也就 是说， 把一 
个 正则表 达式替 换为另 一个操 作数和 （或） 运算 符更少 却又表 示相同 语言的 正则表 达式。 这一 
过程 类似于 在处理 算术表 达式时 对繁冗 的表达 式进行 的那些 简化。 例如， 可以将 两个很 大的多 
项式 相乘， 然后通 过分组 相似项 来简化 结果。 再 比如， 我们在 8.9 节 中简化 了关系 代数表 达式从 
而获 得更快 的求值 速度。 

如果 i： ⑻ =丄(5)， 就说两 个正则 表达式 及 和 是等 价的， 记作 尺 三 5。 如 果这样 的话， 可以说 
=  S 是一种 等价。 在接下 来的内 容中， 我们 将假设 i?、 ^ 和 7 是 任意的 正则表 达式， 并以 这些操 
作数 来陈述 要讨论 的等价 关系。 


等价 的证明 

在本 节中， 我们 要证明 若干涉 及正则 表达式 的等价 关系。 回想 一下， 两个正 则表达 式的等 
价 是说， 不管 为其变 量替换 怎样的 语言， 这两个 表达式 的语言 都是相 等的。 因此 我们可 以通过 
证 明两种 语言， 也就是 两个字 符串集 合的相 等性， 来证 明正则 表达式 的等价 。 一般 而言， 要通 
过证明 两个方 向上的 包含关 系来证 明集合 \ 和集合 &是等 价的。 也就 是说， 证明 ，还 
要证明 &  £  乂。 两 个方向 对证明 集 合相等 都是必 要的。 


10.7.1 取并 和串接 与加法 和乘法 的类比 

在本 节中， 我们要 列举与 正则表 达式的 取并、 串 接和闭 包运算 符有关 的最重 要的那 些等价 
关系。 首 先要从 取并和 串接运 算与加 法和乘 法运算 的类比 开始。 正如我 们将要 看到， 这 种类比 
并 不是很 精确， 主要因 为串接 是不具 备交换 性的， 而 乘法当 然是具 备交换 性的。 不过， 这两对 
运算 之间还 是存在 诸多相 似性。 

首先， 取并和 串接都 具有单 位元。 取并运 算的单 位元是 0， 而 串接运 算的单 位元是 e。 

(1)  取 并的单 位元。 (0\R)^(R\0)^Ro 

(2)  串 接的单 位元。 emeER  0 

从空 集和取 并的定 义中应 该不难 看出⑴ 成立的 原因。 要知道 (2) 成立的 原因， 如果 字符串 X 
在 Z(d?) 中， 那么 jc 就是 Z(0 中 某个字 符串与 Z(i?) 中某个 字符串 r 的串 接。 不过 中唯 一的字 
符 串就是 本身， 因此可 知^  =  ^。 不过， 空 字符串 与任意 字符串 r 串接 的结 果都是 r 本身， 所以 
x  =  rQ 也 就是说 x 在 中。 同 样可以 看到， 如果 jc 在 1(价) 中， 那么 jc 也在 中。 

要证明 等价对 (2)， 不仅 要证明 Z (冰） 和 中的每 个字符 串都在 Z(i?) 中， 而且要 证明反 
向的 命题， 也就是 ZCR) 中的每 个字符 串都在 Z (冰） 和 中。 如果 r 在 Z(i?) 中， 那么 6T 就在 
1(6^) 中。 不过 er  =  r， 所以 厂在1(冰） 中。 同样的 推理告 诉我们 r 也在 中。 因 此就证 明了 
1 ⑻和 是 相同的 语言， 而且 和 以价) 是 相同的 语言， 这就是 (2) 中 的等价 关系。 

因此 0 与算 术中的 0 是类 似的， 而£ 则与 1 是类 似的。 还存在 另一种 类比， 0 是串接 的零元 
( annihilator ), 也就是 

(3)  串接的 零元。 0ki?0E0。 换句 话说， 当 将空集 与任何 内容串 接时， 得到 的都是 空集。 
类 似地， 0 是乘法 运算的 零元， 因为 0xx  =  xx0=0。 
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可 以通过 以下方 式验证 ⑶的真 实性。 为了 让某个 字符串 x 出现在 中， 就要用 1(0) 中 
的字符 串串接 Z ⑻中 的字 符串。 因为 Z(0) 中是不 含字符 串的， 所以我 们没办 法形成 X。 类似的 
论 证也可 以证明 L(R0) 也必定 为空。 

接 下来的 等价关 系是我 们在第 7 章 中讨论 过的并 集运算 的交换 律和结 合律。 

(4)  取 并的交 换律。 (^|5)^(5|^)0 

(5)  取 并的结 合律。 （(尺  p)l 

正如 我们提 过的， 串 接也是 有结合 性的。 也就是 

(6)  串 接的结 合律。 （Us)  r) 三 (尺(灯)） 。 

要知道 (6) 为何 成立， 先假设 字符串 X 在 中， 那么 JC 就是由 1 (兄 S) 中的 某字符 串;; 和 z ⑺ 
中某字 符串? 串接 而成。 还有， y- 定是由 z ⑻ 中的某 字符串 r 和 从5) 中的 某字符 串碑接 而成， 因此 
有 jc  =  M  =  r 对。 现 在考虑 字 符串对 一定在 Z^7) 中， 因此紙 也就是 X， 是在 
中的。 因此 勹 中 的每个 字符串 X 都一 定也在 中 。相 似的论 证告诉 我们 
中的 每个字 符串也 一定在 1(0^)  T；) 中。 因此这 两种语 言是相 同的， 所以等 价关系 (6) 成立。 

(7)  串接 对取并 的左分 配律。 (i?(5l  r))  E  。 

(8)  串接 对取并 的右分 配律。 （OS  I  T)R)^(SR\TR)o 

我们 看看⑺ 为什么 成立， (8) 成立 的原因 也是相 似的， 就留作 习题吧 。如果 X 在 1  r)) 中， 
那么 jc  =  w， 其中 〃在^⑻ 中， 而 且；; 要么在 Z(5) 中， 要么在 Z(7) 中， 或者同 在这两 者中。 如果 j 
在 1(5) 中， 那么 ^在1 (兄 S) 中， 而如果 3；在1(尺) 中， 那么 x 在 中 。不 管是哪 种情况 ^ 都是在 A 
中。 因此 1001  r)) 中的每 个字符 串都在 i： (兄 中。 

我 们还可 以证明 反向的 命题， 也 就是说 兄 S|i?7) 中的每 个字符 串都在 中。 如果 x 
在前 者中， 那么 jc 要么在 Z^S) 中， 要么在 L(i?7) 中。 假设 ^在1 (兄 S) 中。 那么 x  =  n 其中 r 在 
中， s 在 中。 因此? 在 ZCS|7) 中， 所以 x 在 1(尺(5*|：0) 中。 同样， 如果 X 在 中， 就可 以证明 
x —定在 10(5*17^ 中。 现在 我们就 证明了 两个方 向上的 包含， 这 样就证 明了等 价关系 (仏 

10.7.2 取并 和串接 与加法 和乘法 的区别 

取并运 算与加 法不尽 相同的 原因之 一 '就 是幕 等律。 也就 是说， 取并运 算是幕 等的， 但加法 
不是。 

(9)  取 并的幂 等律。 

串接也 与乘法 有重大 差异， 因 为串接 不具交 换性， 而实 数或整 数的乘 法是满 足交换 律的。 
要知道 兄? 一般 来说与 ® 不 等价的 原因， 可以 举个简 单例子 ，设 i?  =  a 而且 ^  =  b ， 则有 Z (兄 S)  =  {ab}, 
KL(RS)  =  {ba} ， 而这 两个集 合是不 同的。 

10.7.3 涉 及闭包 的等价 

还 有其他 一些与 闭包运 算符有 关的实 用等价 关系。 

(10)  0*^6：  o 大家 可以验 证该 式的两 边都表 示语言 {6：}。 

(11)  RR* 三 R*R。 请 注意， 该式两 边都与 10.6 节扩 展表示 法中的 是等价 的。 

(12)  (RR*\e)^R*0 也就 是说， 尺+ 和空字 符串取 并是与 /等 价的。 
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10.7.4  习题 

(1)  证明等 价关系 (8)， 即 串接对 取并的 右分配 律是成 立的。 

(2)  通 过变量 替换， 可以从 已经陈 述的等 价关系 得出等 价关系 00 三 0 和 =  其中 要利用 到哪些 

等价 关系？ 

(3)  证明等 价关系 (10) 到 (12)。 

(4)  证明： 

(a)  (R\R*)  =  R*  ； 

(b)  (e\R*)  =  R*^ 

(5)  * 是否存 在特定 的正则 表达式 i? 和 货茜足 “交换 律”， 也就 是说， 对这些 特殊的 表达式 来说， 满足 
RS  =  SR  ? 如果不 存在， 请给出 证明， 如果 存在， 请给岀 ZK 例。 

(6) * 正则表 达式中 不需要 操作数 0, 除 非没有 0 就 找不到 语言为 空集的 正则表 达式。 如果 正则表 
达式中 未岀现 0  , 就说 它是无 0 的。 通 过对无 0 正则 表达式 i? 中岀 现的运 算符个 数进行 归纳， 
证明 Z(i?) 不是 空集。 提示： 10.8 节中将 会展示 对正则 表达式 中岀现 的运算 符的数 量进行 归纳证 
明的 示例。 

(7)  ** 通过 对正则 表达式 i? 中岀 现的运 算符的 数量进 行归纳 证明： i? 要么 与正则 表达式 0 等价， 要么 
与 某个无 0 正则 表达式 等价。 

10.8 从 正则表 达式到 自动机 


记得 我们在 10.2 节中对 自动机 的初步 讨论， 其中看 到了在 确定自 动机与 利用了  “状 态”概 
念 （用以 区分程 序中不 同部分 扮演的 角色） 的 程序之 间存在 的紧密 关系。 然 后我们 说过， 设计 
确定自 动机往 往是设 计这类 程序的 一种好 方法。 不过 我们还 看到， 确定自 动机可 能难于 设计。 
在 10.3 节中 看到， 有 时候设 计非确 定自动 机要更 简单， 而且 子集构 造让我 们可以 把任意 非确定 
自动机 转换成 等价的 确定自 动机。 现在 我们又 知道了 正则表 达式， 接 下来会 看到， 写出 正则表 
达 式甚至 比 设计非 确定自 动机更 简单。 

而 且很好 的是， 存在 某种方 式可以 把任意 正则表 达式转 换成非 确定自 动机， 接着就 可以使 
用子集 构造将 得到的 非确定 自动机 转换成 确定自 动机。 事 实上， 我们在 10.9 节中还 会看到 ，也 
能把 任意自 动机 转换成 相应的 正则表 达式， 其中 正则表 达式的 语言刚 好是自 动机 接受的 字符串 
集合。 因此自 动 机和正 则表达 式有着 一模一 样的语 言描述 能力。 


并 非所有 语言都 能用自 动 机描述 

尽 管我们 看到很 多语言 可以用 自动机 或正则 表达式 描述， 但 还是存 在不能 这样描 述的语 
言。 直 觉就是 “ 自动机 不会数 数”。 也就 是说， 如果 为具有 《 个状 态的自 动机提 供一列 《 个相同 
符号， 它 肯定会 进入同 一状态 两次， 这样 它就不 能确切 记住已 经看到 了多少 符号。 因此， 比方 
说自 动 机不可 能识别 所 有只由 平衡圆 括号 组成的 字符串 。因 为正则 表达 式和自 动 机定义 了相同 
的 语言， 所 以同样 不会有 语言刚 好全是 平衡圆 括号字 符串的 正则表 达式。 我 们将在 10.9 节中讨 
论 哪些语 言是不 可以用 自 动机定 义的。 


在本 节中， 我 们要完 成以下 任务， 说明 如何把 正则表 达式转 换成自 动机。 

(1) 引 入具有 e 转 换的自 动机， 也 就是， 具有 标号为 e 的 弧的自 动机。 这些弧 用在路 径中， 
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但 不会对 路径的 标号产 生任何 影响。 这种形 式的自 动 机是正 则表达 式与本 章先前 讨论过 的自动 
机之 间的中 间体。 

(2)  展示如 何把任 意正则 表达式 转换成 定义同 一语言 的具有 e 转换 的自 动机。 

(3)  展示如 何把任 意具有 £： 转 换的自 动机 转换成 接受同 一语言 的不含 6： 转 换的自 动机。 

10.8.1 具有 e 转换的 自动机 

首 先要将 自动机 的概念 扩展到 允许为 弧标记 e 。 这样的 自动机 仍然是 当且仅 当从起 始状态 
到 接受状 态存在 标记为 s 的路 径时才 接受字 符串〜 不过请 注意， 空 字符串 e 在字 符串中 是“不 
可见 的”， 因此在 为路径 构建标 号时， 我 们其实 删除了 所有的 6： ， 并且 只使用 “ 真实” 的字符 

♦ 示例 10.24 

考 虑如图 10-26 所示 的具有 e 转换 的自 动机。 在 这里， 状态 0 是起始 状态， 而状态 3 是 唯一的 
接受 状态。 从状态 0 到状态 3 的一条 路径为 

0，  4，  5，  6，  7，  8，  7，  8,  9，  3 

这些弧 的标号 就构成 了序列 

6lo€6c€c€6 

只 要记得 6： 与任 意其他 字符串 串接得 到的都 是那个 其他字 符串， 就可以 “ 丢掉” 这些 ^ 得 
到 字符串 bCC， 这就 是正在 考虑的 路径的 标号。 


大家 可能会 发现， 从状态 0 到状态 3 的路径 的标记 只会是 a、 b、 be、 bcc、 bccc, 等等。 
表示该 集合的 正则表 达式是 a  I  be*, 而且 我们会 看到图 10-26 中的 自动机 可以自 然地由 这一正 
则表达 式构建 而来。 


10.8.2 从正则 表达式 到具有 e： 转换的 自动机 


我们 可以利 用根据 对正则 表达式 中运算 符数量 进行完 全归纳 得出的 算法， 把 正则表 达式转 
换成自 动机。 这 一思路 类似于 我们在 5.5 节中 介绍过 的对树 的结构 归纳， 而 且如果 用正则 表达式 
的表 达式树 （其中 原子操 作数是 树叶， 而运算 符在中 间节点 位置） 来表示 它们， 这种对 应就会 
变 得更加 明朗。 要证明 的命题 如下。 
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命题况 《)。 如果 尺 是含 《 个运 算符， 而且 不含变 量作为 原子操 作数的 正则表 达式， 那 么存在 
具有 e 斧换的 自动乳 4, 只接受 中的字 符串。 此外， J 满足如 下所有 条件： 

(1)  只有一 个接受 状态； 

(2)  没有弧 通向它 的起始 状态； 

(3)  没 有弧从 它的接 受状态 出发。 

依据。 如果 《  =  0, 那么 i? 一定 是一个 原子操 作数， 它 可能是 0、 e ， 或是 对应某 个符号 x 的 x。 
在这 3 种情 况下， 可以 设计满 足命题 况0) 要求 的双状 态的自 动机， 这 些自动 机如图 10-27 所示。 

o 

⑻对应 0 的 自动机 

(b) 对应 e 的 自动机 

(C) 对应 X 的自 动机 
图 10-27 依据情 况中的 自动机 

请务必 理解， 这里 为正则 表达式 中岀现 的每个 操作数 创建了 新的自 动机， 而且 所具有 的状态 
与 其他任 何自动 机的状 态都不 一样。 例如， 如果在 表达式 中出现 3 个 a， 我们就 会创建 3 个 不同的 
自 动机， 总共有 6 个 状态， 每个 自动机 都与图 10-27C 所示的 自动机 类似， 只不过 用3替 代了 其中的 X。 

图 10-27a 中 的自动 机显然 不接受 任何字 符串， 因 为我们 没办法 从起始 状态到 达接受 状态， 
因 此它的 语言为 0。 图 10-27b 是对应 e 的， 因为 它只接 受空字 符串。 图 10-27C 是 只接受 字符串 x 
的自 动机。 我们 可以用 为符号 x 选择 的不同 值创建 新的自 动机。 请 注意， 这 些自动 机都能 满足上 
述 3 个 要求， 只有一 个接受 状态， 没有 进入起 始状态 的弧， 也 没有从 接受状 态岀发 的弧。 

归纳。 现 在假设 邓) 对 所有的 /<«都 成立， 也就 是说， x 利 ■壬意 最多具 有《 个运 算符的 正则表 
达式 i? 来说， 存在自 动机满 足归纳 假设的 条件， 并且 只接受 ZCR) 中的 所有字 符串。 现在， 设尺是 
具有 《+1 个运 算符的 正则表 达式。 我 们可以 将注意 力放在 “最 外侧” 的运算 符上， 也就 是说， 

尺 只可 能是及 |尺2、 及尽或戽* 这样的 形式， 具 体取决 于形成 尺 时最后 用到的 那个运 算符是 区别、 
串 接还是 闭包。 

在这 3 种 情况的 任意一 种中， & 和尽 都不可 能具有 《个 以上运 算符， 因为 R 中有 一个 运算符 
不属 于及和 尺2中 的任何 一个。 ® 因此， 归纳 假设在 所有这 3 种情 况下都 是适用 于晁和 的 。我 
们可以 通过依 次考虑 这几种 情况来 证明况 《+1)。 

情况 1。 如果 及 |尺2, 那么可 构建图 10-28a 中的自 动机。 取及 和尾， 并添 加两个 新状态 
(一 个起 始状态 和一个 接受状 态）， 从 而构造 了该自 动机。 与 i? 对应 的自动 机的起 始状态 具有到 
与 & 和& 对 应的自 动 机起始 状态的 e 转换。 这 两个自 动机的 接受状 态分别 有到对 应的自 动机接 
受 状态的 e 转换。 不过， 与及 和尽 对应 的自动 机的起 始状态 与接受 状态不 是构造 出的自 动机的 
起 始状态 和接受 状态。 


①不要 忘了， 即便 串接是 通过并 置操作 数来表 示的， 并没有 可见的 运算符 符号， 但 在确定 中出 现了 多少个 运算符 
时， 仍然要 将串接 的使用 记人运 算符出 现的次 数中。 
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这种 构造之 所以行 得通， 是因为 从对应 的 自动机 的起始 状态到 接受状 态的唯 一方式 ，是 
沿 着一条 标记为 e 的弧 到与& 对应 或与'  对 应的自 动机 的起始 状态。 然后必 须沿着 所选自 动机 
中的路 径到达 其接受 状态， 之 后经过 e 转换 到达与 对应的 自动机 的接受 状态。 这 一路径 是由我 
们行 经的自 动机 所接收 的某个 字符串 4 示 记的， 因 为我们 从该自 动 机的起 始状态 行至了 接受状 
态。 因此， s 要么在 Z(R) 中， 要么在 中， 这取决 于我们 行经的 自动机 到底是 哪个。 因为我 
们只 为路径 的标号 增加了  e ， 所以图 10-28a 中的自 动机也 接受〜 因此 被接受 的字符 串都在 
中， 也就 是在 1(6|尺2) ， 或者说 [(尺) 中。 


(b) 为两个 正则表 达式的 串接构 造的自 动机 


(c) 为正则 表达式 的闭包 构造的 自动机 


图 10-28 根 据正则 表达式 构造自 动 机的归 纳部分 

情况 2。 如果 i?  =  W2, 那么 可以构 造如图 10-28b 所 示的自 动机。 该自 动机的 起始状 态是与 
及 对应的 自动机 的起始 状态。 而它的 接受状 态是与 & 对应的 自动机 的接受 状态。 我们添 加了从 
与 及 对 应的自 动 机的接 受状态 到与& 对 应的自 动机 的起始 状态的 e 转换。 第 一个自 动机 的接受 
状 态不再 是接受 状态， 而第 二个自 动机的 起始状 态在构 造的自 动机中 也不再 是起始 状态。 

在图 10-28b 所示 的自动 机中， 从起始 状态到 接受状 态的唯 一方式 如下： 
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(1)  顺着由 1( 及） 中某字 符串兩 记的 路径， 从起始 状态到 达与及 对 应的自 动机 的接受 状态； 

(2)  接 着沿着 标记为 e 的 路径到 达与尽 对 应的自 动机 的起始 状态； 

(3)  然后 顺着由 Z (尽） 中某字 符串? 标记的 路径， 到达 其接受 状态。 

这 条路径 的标号 是对。 因此图 10-28b 中的 自动机 接受的 刚好是 及）， 也就是 ZCR) 中的字 
符串。 

情况 3。 如果 尺= 尺 贝 I] 可以构 造如图 10-28c 所 示的自 动机。 我们为 与及对 应的自 动机添 
加了 新的起 始状态 和接受 状态。 这个 新的起 始状态 具有到 新接受 状态的 e： 转换 （ 所以 字符串 e 会 
被接 受）， 而且 有到与 & 对应的 自动机 的起始 状态的 e 转换。 与 A 对应的 自动机 的接受 状态被 
赋予 了回到 其起始 状态的 e： 转换， 以 及到与 对应的 自动机 的接受 状态的 e 转换。 与晁对 应的 
自 动机 的起始 状态与 接受状 态不再 是构造 岀的自 动 机的起 始状态 与接受 状态。 

图 10-28C 中 从起始 状态到 接受状 态的路 径要么 标记为 e  (如 果是 直接到 达）， 要 么是由 
中 一个或 多个字 符串的 串接来 标记， 一如我 们行经 与乂对 应的自 动机， 并 且按自 己喜好 反复回 
到其起 始状态 一样。 请 注意， 我们 每次在 行经与 及对应 的自动 机时， 并不 一定都 要沿着 相同的 
路径。 因此， 经过图 10-28C 的路径 的标号 刚好是 ZW*)， 也就是 Z ⑻中 的字 符串。 

♦ 示例 10.25 

下面 我们来 为正则 表达式 a  I  be* 构造自 动机。 对应该 正则表 达式的 表达式 树如图 10-29 
所示， 它 类似于 我们在 5.2 节中 讨论过 的表达 式树， 并有助 于我们 了解运 算符应 用到操 作数上 
的 次序。 


总共有 3 个叶子 节点， 而且我 们为每 个叶子 节点都 构造了 类似图 10-27C 所 示的自 动机 实例。 
这 些自动 机如图 10-30 所示， 而 且使用 了与图 10-26 所示的 自动机 （正 如我 们提到 过的， 这是我 
们最终 要为该 正则表 达式构 造的自 动机） 一致的 状态。 不过， 大 家应该 明白， 对 应多次 岀现的 
操作数 的自动 机有着 不同的 状态。 在 这个例 子中， 因 为每个 操作数 都是不 同的， 我们能 想到要 
为 每个操 作数使 用不同 状态， 不过， 打个比 方说， 如果 表达式 中出现 了多个 a， 就要 为每个 a 创 
建不 同的自 动机。 

现在 必须应 用运算 符并构 建随着 进程更 大的自 动机， 逐步建 立起图 10-29 中 的树。 最 先应用 
的运 算符是 闭包运 算符， 它是 应用到 操作数 c 上的。 我们利 用了图 10-28C 中 对应闭 包运算 的构造 
方法。 引人的 新状态 分别称 为状态 6 和状态 9, 还 是与图 10-26 保持 一致。 图 10-31 展示了 与正则 
表达式 c* 对 应的自 动机。 
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(a) 与 a 对应的 自动机 

⑻ 与 b 对应的 自动机 

(c) 与 c 对应的 自动机 
图 10-30 对应 a、 b 和 c 的自 动机 


起始 


图 10-31 对应 c* 的 自动机 

接 下来对 b 和 c* 应用 了串接 运算符 。利用 的是图 10-28b 的构 造方法 ，得到 的自动 机如图 10-32 
所示。 


最后， 我们对 a 和 be* 应用 取并运 算符。 这里用 到了图 10-28a 所示 的构造 方法， 而且 将引入 
的新 状态称 为状态 0 和状态 3 ， 得 到的自 动机 就如图 10-26 所示。 

10.8.3 消除 e 转换 

如 果我们 在具有 e 转换 的某自 动 机的任 意状态 s 中， 其实 也是在 从状态 s 沿着由 标记为 e 的 
弧 形成的 路径可 以到达 的任意 状态。 原因 在于， 不管是 什么字 符串标 记了到 达状态 s 所经 过的路 
径， 同样的 字符串 都是用 e 转 换扩展 过的该 路径的 标号。 

♦ 示例 10.26 

在图 10-26 中， 可 以沿着 标记了  6 的 路径到 达状态 5。 从状态 5 起， 可以 沿着由 标记了  e 的弧 
形成的 路径到 达状态 6、 状态 7、 状态 9 和状态 3。 因此， 如 果我们 在状态 5 中， 其 实也就 在其他 4 
个状 态中。 例如， 因 为状态 3 是接受 状态， 所以 也可以 把状态 5 视 作接受 状态， 因 为能把 我们带 
到状态 5 的每个 输人字 符串， 也能把 我们带 到状态 3, 因 此是可 以被接 受的。 

因此， 要 问的第 一个问 题是， 从 各状态 开始， 只沿着 转 换可以 到达哪 些其他 状态？ 在 9.7 
节中， 我 们在了 解深度 优先搜 索的一 种应用 （可 达性 问题） 时， 给 出了回 答这一 问题的 算法。 
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对这里 的问题 来说， 要对 表示有 限自动 机的图 进行的 修改， 只是要 把图中 所有除 e 转换 之外的 
转换 删除。 也就 是说， 对每 个实际 的符号 X， 要删 除所有 标记为 X 的弧。 然 后从剩 下的图 中各个 
节 点开始 进行深 度优先 搜索。 在 从节点 V 开始的 深度优 先搜索 期间访 问过的 节点， 刚好 就是从 V 
开始 只使用 e 转换便 可到达 的节点 组成的 集合。 

回想 一下， 深度优 先搜索 要花费 0(m) 的时 间， 其中 m 是图 中节点 数和弧 数的较 大者。 在这 
种情 况下， 如果 图中有 《个 节点， 要进行 《 次深 度优先 搜索， 总 共要花 0  (m«) 的 时间。 不过 ，在 
通过在 本节前 面的内 容中描 述的算 法从正 则表达 式构造 的自动 机中， 任意 节点岀 发的弧 最多只 
有 两条。 因此 m^：2n  , 而且 (9  (w.«) 就是 (9  0?2) 的 时间。 

♦ 示例 10.27 

在图 10-33 中， 可以看 到从图 10-26 中删 除标记 了由实 际符号 a、 b、 c 标记的 3 条弧后 剩下的 
弧。 图 10-34 中的表 给出了 图 10-33 的 可达性 信息， 也就 是说第 / 行和 箄/列 的 1 就表 示存在 从节点 / 
到节 点/的 长度为 0 或以上 的路径 


图 10-33 图 10-26 中的 e 转换 


0123456789 

0 

1  1  1 

1 

1 

2 

1  1 

3 

1 

4 

1 

5 

1  111  1 

6 

1  111 

7 

1 

8 

1  111 

9 

1  1 

图 10-34 图 10-33 对 应的可 达性表 


有 了可达 性信息 之后， 就 可以构 造不含 £： 转换的 等价自 动机。 思路就 是把旧 自动机 中具有 0 
次 或多次 e 转换 一条路 径以及 后面标 记为实 际符号 的一次 转换， 捆绑 成新自 动机中 的一次 转换。 
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每一次 这样的 转换， 都会 将我们 带到图 10-27C 的依 据规则 （操 作数为 实际符 号时的 规则） 引入的 
自 动机中 第二个 状态。 原因 在于， 这些 状态只 有以真 实符号 为标号 的弧才 进人。 因此， 我 们的新 
自动 机只需 要这些 状态， 以 及对应 其自身 状态集 的起始 状态。 可以 把这些 状态叫 作重要 状态。 

在 构造的 新自动 机中， 如 果存在 某个状 态衫茜 足以下 条件， 就有 从重要 状态頌 J 重要 状态/ 的， 
标 号中含 有符号 x 的 转换。 

(1)  从状态 / 沿着 具有 0 次 或多次 e 转换的 路径可 达状态 t 请 注意， 一 直是可 以的。 

(2)  在 旧自动 机中， 存在 从状态 到状态 /， 标记为 x 的转 换。 

我 们还必 须决定 新自动 机中哪 些状态 是接受 状态。 正如上 文提到 过的， 当我 们在某 个状态 
中时， 其实 就是在 由该状 态沿着 标记为 £的 弧所能 到达的 任意状 态中。 因 此如果 在旧自 动机中 
从状态 / 到其 接受状 态之间 存在由 标记为 e： 的弧 形成的 路径， 就将状 态/作 为新自 动机的 接受状 
态。 请 注意， 状态 / 本身 可能 就是旧 自动机 的接受 状态， 并因 此在新 自动机 中仍然 是接受 状态。 

♦ 示例 10.28 

我们 来将图 10-26 所示的 自动机 转变为 接受相 同语言 但不带 e 转 换的自 动机。 首先， 重要状 
态包括 作为初 始状态 的状态 0， 以及 由标记 了实际 符号的 弧进入 的状态 2、 状态 5 和状态 8。 

首 先从找 到状态 0 对应 的转换 开始。 根据图 10-34, 从状态 0 可以 沿着由 标记了  e 的弧 构成的 
路径到 达状态 0、 状态 1 和状态 4。 我 们发现 有针对 a 的从 状态 1 到状态 2 的 转换， 而且 有针对 b 的 
从状态 4 到状态 5 的 转换。 因此， 在 新自动 机中， 存在 从状态 0 到状态 2 的 标记为 a 的转 换， 并存在 
从状态 0 到状态 5 的 标记为 b 的转换 。请 注意, 我们已 经把图 10-26 中 的路径 0  —  1  —  2 和 0  —  4  —  5 
压缩成 标记了 这些路 径上非 e 转换的 标号的 转换。 因 为状态 0, 以及从 它岀发 沿着以 e 标记 的路 
径可达 的状态 1 和状态 4 都不 是接受 状态， 所以在 新自动 机中， 状态 0 不 是接受 状态。 


图 10-35 通 过消除 e 转换， 根据图 10-26 构 造的自 动机。 请 注意， 该自动 
机 只接受 Z(a|bc*) 中 的所有 字符串 

接 下来， 考虑 从状态 2 岀发的 转换。 图 10-34 告诉 我们， 从状态 2 岀发， 通过 e 转换只 能到达 
它本身 和状态 3, 因此 我们必 须寻找 从状态 2 或状态 3 出发针 对实际 符号的 转换。 因为 没找到 ，所 
以可 知在新 自动机 中没有 从状态 2 岀发的 转换。 不过， 状态 3 是接受 状态， 而且 从状态 2 经过 e 转 
换可 以到 达状态 3 , 所 以状态 2 就是 新自 动机 的接受 状态。 

在考 虑状态 5 时， 图 10-34 表 明要查 看状态 3、 状态 5、 状态 6、 状态 7 和状态 9。 在 这些状 态中， 
只 有状态 7 具有从 自身出 发的非 e 转换， 它被 标记为 c， 而且通 向状态 8。 因此， 在 新自动 机中， 
从状态 5 出发 的唯一 转换就 是针对 c 的 到状态 8 的 转换。 因为 从状态 5 沿着 标记了  e 的弧可 以到达 
接 受状态 3 ， 所 以我们 把状态 5 也作 为新自 动机 的接受 状态。 
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最后， 一定 要查看 从状态 8 出发的 转换。 经 过类似 对状态 5 进 行的推 理可以 得出， 在 新自动 
机中， 从状态 8 岀发 的唯一 转换是 到它自 身的， 而且被 标记为 c。 因此， 状态 8 也是 新自动 机的接 
受 状态。 

图 10-35 展示了 该新自 动机。 请 注意， 它接 受的字 符串集 正好是 Z(a|bc*) 中的 那些字 符串， 
也 就是将 我们带 到状态 2 的 字符串 a， 将 我们带 到状态 5 的 字符串 b， 以及 be、 bee、 bccc 这些将 
我们带 到状态 8 的一 系列字 符串。 图 10-35 中的 自动机 刚好是 确定自 动机。 如果它 不是， 假设想 
设 计可以 识别原 正则表 达式的 字符串 的 程序， 就可 以利用 子集构 造将其 转化为 确定自 动机。 

顺便提 一下， 存 在与图 10-35 接受同 一语言 的更加 简化的 确定自 动机， 该自动 机如图 10-36 
所示。 事 实上， 只 要意识 到状态 5 和状态 8 是等 价并可 以被合 并的， 就可以 得到这 一改进 过的自 
动机。 得到 的状态 就是图 10-36 中 的状态 5。 


图 10-36 对 应语言 Z(a|bc*) 的更简 单的自 动机 


10.8.4  习题 

(1)  为以下 正则表 达式构 造具有 e 转 换的自 动机。 

(a)  aaa0 提示： 请 记住， 要 为岀现 的每个 a 创建 新自 动机。 

(b)  (ab  I  ac)*0 

(c)  (0|l|l*)*o 

(2)  为习题 (1) 中构造 的各个 自动机 找到由 标记为 e 的弧 构成的 图中节 点的可 达集。 请 注意， 在 大家构 
造不含 e 转 换的自 动 机时， 只 需要为 初始状 态和那 些有非 e 转换 进人的 状态构 造可达 状态。 

(3)  为习题 (1) 中 构造的 各个自 动机构 造不含 e 转换的 等价自 动机。 

(4)  习题 (3) 得 岀的自 动机中 哪些是 确定自 动机？ 为 其中那 些非确 定自动 机构造 等价的 确定自 动机。 

(5) * 对 由习题 (3) 和习题 (4) 构造 的确定 自动机 而言， 是否 存在状 态更少 的等价 确定自 动机？ 如 果有， 
找 岀状态 最少的 那个。 

(6)  * 我们可 以扩展 从正则 表达式 构造含 e 转 换的自 动机的 过程， 将正则 表达式 的范围 扩大到 包含那 
些 使用了  10.7 节中 扩展过 的运算 符的表 达式。 这一 命题从 原则上 讲是成 立的， 因为 那些扩 展都是 
“ 原始” 正则 表达式 的简略 形式， 我们 只是用 扩展的 运算符 替代了 原有的 表达式 而已。 不过 ，还 
可以直 接把扩 展过的 运算符 融人到 我们的 构造过 程中。 说 明如何 修改构 造过程 以涵盖 下列运 
算符： 

⑷ ？ 运算符 （不 岀现 或岀现 1 次）； 
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(b)  + 运算符 （ 岀现 1 次 或更多 次）； 

(c)  字 符类。 

(7) 我 们可以 修改把 正则表 达式转 化为自 动 机的算 法中对 应串接 的情况 。在图 10-28b 中 ，引人 了从与 晁 
对应自 动机的 接受状 态到与 对应自 动机 的初始 状态的 e 转换 。另 一种方 式就是 按照图 10-37 所示 
的方 式合并 R 的接受 状态到 的初始 状态。 使用旧 算法与 修改过 的算法 为正则 表达式 ab*c 构造 
自 动机。 


图 10-37 另一 种与两 个正则 表达式 的串接 对应的 自动机 
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本节中 还要展 示自动 机与正 则表达 式等价 性的另 一半， 证 实对每 个自动 t 几 4, 都存 在语言 
刚好是 4 所 接受的 字符串 集合的 正则表 达式。 尽管我 们一般 会使用 10.8 节中 的构造 过程， 其中要 
把正则 表达式 形式的 “ 设计” 转化 为确定 自动机 形式的 程序， 不过 把自动 机转化 为正则 表达式 
的构 造过程 也是很 有趣很 有益的 ，它完 成了这 两种截 然不同 的模式 表示法 的表现 力之间 的等价 
性的 证明。 

我们的 构造过 程涉及 从自动 机中一 个一个 地删除 状态。 随 着构造 过程的 进行， 会把 弧上的 
标号由 最初的 字符串 集合替 换为更 复杂的 正则表 达式。 一开始 ，如果 弧上的 标号是 {$， \ ，…， 
Xn  } , 就可以 把这些 标号替 换为正 则表达 式乂彳 x2| … |  X,, ， 该正 则表达 式从本 质上讲 表示 的是相 
同 的符号 集合， 虽然严 格地讲 正则表 达式表 示的是 长度为 1 的字 符串。 

一般 而言， 可以将 路径的 标号视 为路径 沿线上 正则表 达式的 串接， 或 是看作 这些表 达式的 
串接 定义的 语言。 这一 观点与 我们用 字符串 标记路 径的概 念是一 致的。 也就 是说， 如果 路径的 
弧是用 正则表 达式苹 、及 2 、…、 及, ，按此 次序标 记的， 贝 U 当 且仅当 字符串 w 在语言 … i?,, ) 
中 时有该 路径被 标记为 w。 

♦ 示例 10.29 

考虑图 10-38 中 的路径 04 1  —  2 。 正则 表达式 a  lb 和 alb  lc 依 次标记 了这两 条弧， 因此标 
记该 路径的 字符串 集合是 由正则 表达式 (a 丨 b)(a  I  b  I  c) 定义 的语言 中的字 符串构 成的， 也就是 
{aa,  ab,  ac ,  ba,  bb,  bc}0 

㊇ ....a.|b..KD..a[b|.cKD 

图 10-38 以正 则表达 式作为 标号的 路径， 路径的 标号是 由正则 表达式 
的串 接定义 的语言 

10.9.1 状 态消除 的构造 


在 从自动 机到正 则表达 式的转 化中， 关 键的步 骤就是 状态的 消除， 如图 10-39 所示。 我们希 
望消 除状态 《， 不 过必须 保留弧 的正则 表达式 标号， 从 而使剩 余状态 中两两 之间路 径的标 号集合 
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不发生 改变。 在图 10-39 中 ，状态 m 的前导 分别是 \ 、 …、 ~  , 而 w 的后 继则分 别是? i 、…、 
tm。 虽然已 经证明 了这些 5和? 是不相 交的状 态集， 但其 实两组 中还是 可能存 在一些 相同的 状态。 


不过， 如果 u 是它 本身的 后继， 我们 就要用 标记为 t/ 的弧 明确表 示这一 事实。 假设 在状态 《 
处没有 这样的 自环， 那么 可以引 入一个 这样的 自环， 并赋予 其标号 0。 标号为 0 的弧是 “不存 
在 的”， 因 为任意 用到这 条弧的 路径标 号都会 是含有 0 的 正则表 达式的 串接。 因为 0 是 串接的 
零元， 所 以这样 的串接 定义的 都是空 语言。 

我们还 要明确 给出从 & 到？ i 的弧 i?u。 一般 而言， 假设 对每个 /=1、 2、 以及 对每个 
j=l、 2、 …、 m, 都存在 从&到 ~ 的弧， 由某 个正则 表达式 \ 标记。 如果弧 实际 上不存 
在， 就引 入它并 为其赋 予标号 0 。 

最后， 在图 10-39 中 存在从 各状态 \ 到 w 的， 由 正则表 达式& 标记 的弧， 而且 存在从 w 到各状 
态~ 的， 由正则 表达式 标记 的弧。 如果消 除节点 w， 那 么这些 弧与图 10-39 中 标记为 t/ 的 弧都将 
不复 存在。 要让 标记路 径的字 符串集 合保持 不变， 就必须 考虑每 对&和 并为弧 \ ~ 的标 
号添 加一个 能表示 所失去 内容的 正则表 达式。 

在消 除 u 之前， 标记了 从 \ 到 w  ( 包括多 次行经 的那些 w  ->  « 自环） 然后从 w 到 0 的路 径的那 
些字 符串集 合是由 正则表 达式好 /*!； 描述的 。也就 是说， Z(&) 中 的字符 串可以 把我们 从状态 & 
带到 到状态 中 的字符 串可以 把我们 从状态 w 带到 状态 w， 沿着 该自环 0 次、 1 次或更 多次。 
最后， 中的 字符串 把我们 从状态 《带 到状态 ~_ 。 

因此 ，在消 除状态 《和所 有进出 w 的弧 之后 ，必 须把弧 \  的 标号由 \ 替换为 &  |  。 

存 在不少 实用的 特例。 首先， 若 17=0 ， 即 w 上的 自环并 非真正 存在， 那么 t/*  =  0*  =  6：。 因 
为 e 是串 接的单 位元， 所以 (SAT^S/I] ， 也就 是说， G 其实在 它应该 出现的 位置消 失了。 同样， 
如果 \=0， 意味 着之前 没有从 \ 到 G 的弧， 我们就 引人这 条弧， 并 给予其 标号乂  17*7； ， 或者 
如果 t/  =  0 ， 就是 $7；。 这样做 的原因 在于， 0 是 取并运 算的单 位元， 因此 0|  乂 

♦ 示例 10.30 

我们 来考虑 一下图 10-4 所示的 反弹过 滤器自 动机， 这 里的图 10-40 重现 了该自 动机。 假 设要消 
除状态 它 们就扮 演了图 10-39 中 w 的角 色。 状态 6 有一 个前导 a, 以及两 个后继 《 和 c。 6上 不存在 
自环， 所 以要引 入一个 标号为 0 的 自环。 存在从 a 到其 本身， 标记为 0 的弧。 因为 ag 无是 6 的 前导又 
是办 的后 继， 所以该 弧在这 一 '变 形中是 必须的 。唯 一 ' 一 'Xf 另 外的前 导-后 继对是 a 和 c。 因为 不存在 
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弧 aoc， 所以 可以添 加一条 标号为 0 的弧 相关状 态和弧 组成的 图如图 10-41 所示。 


图 10-40 与反 弹过滤 器对应 的有限 自动机 


0 


对 状态对 a-a 而言， 我 们把弧 a^a 的标号 替换为 0 1 10  *  0 。 0 这项表 示该弧 的原始 标号， 
而 1 这项是 a  ―纟 的 标号， 0 是 自环纟 o 纟的 标号， 而 第二个 0 项则 是弧纟 — a 的 标号。 我们可 
以 按照之 前的描 述进行 简化， 消除 0*, 留下 表达式 0  1 10, 这 是说得 通的。 在图 10-40 中 ，从 a 
到 a 的路 径， 行经 纟状态 0 次或 多次， 而不经 过其他 状态， 其标号 集合为 {0,  10}。 

处理 状态对 a-C 的过 程是类 似的。 我们要 用可以 简化为 11 的 0|10*1 替代弧 a  —  c 的标号 
0。 这还 是说得 通的， 因 为在图 10-40 中， 从 a 到 c 的唯一 路径， 经过 6 而且 标号为 11。 在 消除节 
点 办并改 变弧标 号后， 图 10-40 就 成了图 10-42。 请 注意， 在 该自动 机中， 某 些弧标 号中的 正则表 
达式 具有长 度大于 1 的字 符串。 不过， 状态 c 和 d 之间 的路 径对应 的路径 标号集 合与图 10-40 相 
比没 有发生 改变。 


图 10-42 消除 了状态 6 之后 的反弹 过滤器 自动机 
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10.9.2 自动 机的完 全简化 

要得到 只表示 所有由 自动乳 4 接 受的字 符串的 正则表 达式， 就要依 次考虑 ^ 的各 接受状 态?。 
每个被 3 接受 的字符 串之所 以会被 接受， 是因为 它标记 了从起 始状态 s 到某 个接受 状态? 的 路径。 
可以按 照以下 方式， 为 那些把 我们从 s 带到 某个特 定接受 状态? 的字符 串构造 相应的 正则表 达式。 

反 复消除 自动乳 4 的 状态， 直 到只剩 s 和? 两个 状态， 这样 一来， 该 自动机 就如图 10-43 这样 
了。 我们已 经展示 了所有 4 条可能 的弧， 每一条 都以一 个正则 表达式 作为其 标号。 如果一 条或多 
条可能 的弧不 存在， 可以引 入该弧 并为其 标记上 0。 


S  T 


图 10-43 减少到 两个状 态的自 动机 

需要 找岀有 哪些正 则表达 式描述 了始于 s 并终 于? 的路径 的标号 集合。 表示该 字符串 集合的 
一 种方式 是认识 到每一 条这样 的路径 会先到 达?， 然 后从? 行至 其自身 0 次或 多次， 还可能 在行进 
的 过程中 经过〜 一开 始把我 们带到 状态? 的 字符串 集合是 也就 是说， 要用到 #5) 中的字 
符串 0 次或 多次， 这 样做就 会先留 在状态 s 中， 然 后沿着 中的 字符串 行进。 我 们既可 以跟随 
工(7) 中的 字符串 停留在 状态? 中， 这 会将我 们从? 带到 ?， 也可 以沿着 FW 中的字 符串到 达&在 s 
停顿一 会儿， 然 后又回 到?。 我们可 以沿着 这两组 中以任 意次序 排列的 0 个 或多个 字符串 行进， 
并将其 表示为 Wt/)*。 因此从 状态劍 状态? 的 字符串 集合对 应的正 则表达 式就是 

S*U(T\VS*Uy  (10.4) 

存 在一种 特例， 就是起 始状态 S 本身也 是接受 状态的 情况。 这样 的话， 有些 字符串 被接受 的原因 
是因为 它们将 自动乳 4 从状态 s 带到 了状态 ^ 我们消 除了除 s 之外 的所有 状态， 留 下如图 10-44 所 
示的自 动机。 将 J 从状态 s 带到 状态确 字符串 集合是 Z0S*)。 因此 可以用 作为 取代接 受状态 s 的 
贡献的 正则表 达式。 


S 


起始 


图 1 0-44 只有 起始状 态的自 动机 

将起始 状态为 s 的自 动乳 4 转化 成等价 正则表 达式的 完整算 法如下 所述。 对 每个接 受状态 ^ 
而言， 从自动 t 几 4 开始， 并消 除各种 状态， 直到 只剩下 状态说 U。 当然， 对每 个接受 状态辣 说， 
都要 从全新 的原自 动乳 4 开始 进行 处理。 

如果# Z ， 就使用 (10.4) 式得岀 其语言 是把^ 从状态 s 带到 状态? 的 字符串 集合的 正则表 达式。 
如果 s  =  “ 就利用 P， 其中 51  是弧 s  4  s 的 标号。 然后， 为 对应每 个接受 状态? 的正则 表达式 取并。 
该表达 式的语 言就刚 好是被 3 接受的 字符串 的 集合。 
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♦ 示例 10.31 

下面 来为图 10-40 所示的 反弹过 滤器自 动 机得岀 相应的 正则表 达式。 因为 c 和 d 是接受 状态， 
所以 需要进 行下列 操作： 

(1)  从图 10-40 中消除 状态时 似， 得到 只涉及 a 和 c 的自 动机； 

(2)  从图 10-40 中 消除状 态办和 c， 得到 只涉及 a 和 d 的自 动机。 

因为 在这两 种情况 下都必 须消除 状态乂 所以图 10-42 就让 我们的 最终目 标实现 了一半 。对 
情况 (1)， 要在图 10-42 的基 础上消 除状态 I 存在从 c 经过 d 到 a 的标 号为 00 的 路径， 所以 需要引 
人一条 从^到^ 标记为 00 的弧。 存在从 c 经过 d 回到其 自身的 标号为 01 的 路径， 因此 需要为 c 处的 
自环添 加标号 01， 这样 该标号 就成了 11  01。 得到 的自动 机如图 10-45 所示。 


00 


图 10-45 把图 10-40 所 示的自 动机减 少到只 剩状态 a 和状态 c 

对目标 (2)， 要再 次从图 10-42 开始， 而这 次要消 除状态 c。 在图 10-42 中， 我们 可以从 《 经过 C 
到达么 而描述 可能字 符串的 正则表 达式为 111*0。 ® 也就 是说， 11 将 我们从 a 带到 c， 1* 让我们 
在 c 处循环 0 次或 多次， 而最后 0 把 我们从 c 带到 么 因此， 我们引 入了从 a 到 d 的标 号为 111*0 的弧。 
同样， 在图 10-42 中， 可 以沿着 11*0 中的字 符串， 从 d 通过 c 行至其 自身。 因此， 这 一表达 式成了 
d 处 自环的 标号。 简化过 的自动 机如图 10-46 所示。 


0 


起始 


0  1  10  11*0 

图 10-46 把图 10-40 中的自 动机减 少到只 剩状态 a 和状态 c/ 

现在 可以把 (10.4) 中 得出的 公式应 用到图 10-45 和图 10-46 所示 的自动 机上。 对图 10-45, 有 
s  =  o\io  ,  u  =  n  ,  v  =  oo  , 而且 r  =  i|oi。 因此表 示将图 10-40 所示 的自动 机从起 始状态 a 带 
到接 受状态 c 的字 符串 集合的 正则表 达式为 

(0110)*11((  1101)100  (0|10)*11)*  (10.5) 

而表示 把该自 动 机从起 始状态 a 带到接 受状态 d 的 字符串 的 正则表 达式为 

(0  1 10)*111*0(1 1*0  |0(0|  10)*111*0)*  (10.6) 


①请 记住， 因为 * 的优先 级高于 串接， 111*0 会被 解释为 11(1*)0， 并表示 由两个 或更多 1 后面加 以一个 0 构 成的字 
符串。 
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表示 由反弹 过滤器 自动机 接受的 字符串 的正则 表达式 就是对 (10.5) 和 (10.6) 取并， 或 者说是 
( (0  I  10)*11 ( (1  I  01)  I  00(0  I  10)*11)*)  I  ( (0  I  10)  *111*0 (11*0  I  0(0  I  10)*111*0)*) 
没 有办法 对该表 达式进 行多少 简化， 因为相 同的因 式只有 (0  I  10)*11， 其 他就基 本没有 什么相 
同 的了。 我们可 以删除 (10.5) 中因式 (1  I  01) 周围的 括号， 因为 取并运 算是具 有结合 性的， 这样 
得到 的表达 式就是 

(0  I  10) *11 ( (1  I  01  I  00(0  I  10)*11)*)  I  1*0(11*0  I  0(0  I  10)*111*0)*) 

大 家可以 回想 一下， 我们 为同样 的语言 提岀过 一个简 单得多 的正则 表达式 

(0  1  1)*11(11  01)*0  I  0) 

这一 区别应 该提醒 我们， 对同 一语言 来说， 可 能存在 不止一 个与之 对应的 正则表 达式， 而通过 
转化自 动机得 到的正 则表达 式也不 一定是 对应该 语言的 最简表 达式。 

10.9.3  习题 

(1)  分 别找岀 下列各 图所示 自动机 对应的 正则表 达式。 

(a)  图  10-3 

(b)  图 10-9 

(c)  图 10-10 

(d)  图  10-12 

(e)  图  10-13 

(f)  图  10-17 

(g)  图  10-20 

大家可 能会希 望利用 10.6 节中 的简略 形式。 

(2)  把 10.4 节习题 (1) 中的 自动机 转化成 正则表 达式。 

(3)  * 证明， 把我 们从图 10-43 中 的状态 s 带到 状态 〖的 字符 串集合 对应的 另一个 正则表 达式是 
(S\UT*V)*UT*  o 

(4)  如 何修改 本节中 的构造 过程， 使得正 则表达 式可以 由具有 e 转换的 自动机 生成？ 

10.10 小结 

10.4 节 的子集 构造， 以及 10.8 节和 10.9 节中的 转化， 告 诉我们 3 种表示 语言的 方式有 着相同 
的表现 效用。 也就 是说， 针对 某语言 Z 的以下 3 个命题 要么都 为真， 要么都 为假。 

(1)  存在某 确定自 动机 只接受 1 中的 所有字 符串。 

(2)  存在某 （可能 为非确 定的） 自动机 只接受 Z 中的 所有字 符串。 

(3)  Z 对 某正则 表达式 来说是 ZCR)。 

子 集构造 说明了 (2) 可 以得到 (1)。 显然有 (1) 就有 (2)， 因 为确定 自动机 就是一 种特殊 形式的 
非 确定自 动机。 我们在 10.8 节中证 明了由 (3) 可 以得到 (2)， 而在 10.9 节中证 实了有 (2) 就有 (3)。 因 
此， （1)、 （2) 和 (3) 是等 价的。 

除 了这些 等价关 系外， 我 们还应 该从第 10 章 获得一 些重要 思路。 

□ 确定 自动机 可作为 识别字 符串多 种不同 模式的 程序的 核心。 

□ 正则表 达式通 常是一 种用于 描述模 式的便 利表示 方法。 

□ 正 则表达 式的代 数法则 使得取 并和串 接与加 法和乘 法有着 类似的 性质， 不 过还是 存在一 
些 区别。 
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第 11 章 

模 式的递 归描述 


在第 10 章中， 我们 看到过 两种等 价的模 式描述 方式。 一种 是图论 方式， 利用了 一种名 为“自 
动机” 的图中 路径的 标号。 另一种 是代数 方式， 利用了 正则表 达式。 在本 章中， 我们将 看到第 
三 种描述 模式的 方式， 利用 到了一 种名为 “上下 文无关 文法” （ 以 下简称 “文 法”） 的递归 定义。 

文法的 重要应 用之一 就是作 为编程 语言的 规范。 文法是 用来描 述常见 编程语 言句法 的一种 
简 洁表示 方式， 我们 会在本 章中看 到很多 示例。 此外， 有一 种机械 的方式 可以把 常见编 程语言 
的文法 转换成 “分 析器” （parser) —— 该语 言编译 器的一 个关键 部分。 分 析程序 揭示了 源程序 
的 结构， 通常 是将程 序中的 每条语 句表示 为表达 式树的 形式。 

11.1 本章主 要内容 

本章 主要讨 论如下 主题。 

□ 文法以 及文法 是如何 用来定 义语言 的 （ 11.2 节和 11.3 节)。 

□ 分 析树， 根据 给定文 法显示 字符串 结构的 树表示 （ 11.4 节)。 

□歧 义， 当 某一字 符串有 两棵或 更多分 析树， 并因 此根据 给定文 法不具 有唯一  “结 构”时 
出现 的问题 （11. 5 节)。 

□ 把文法 转换成 “分 析器” 的一种 方法， “分 析器” 是可 以分辨 给定字 符串是 否在某 一语言 
中的算 法 （ 11. 6 节和 11. 7 节）。 

□ 证明文 法在描 述语言 方面要 比正则 表达式 更强大 （ 11.8 节)。 首先， 我们通 过证明 如何用 
文 法模拟 正则表 达式， 来证明 文法的 描述性 至少与 正则表 达式一 样强。 接 着我们 将描述 
一种只 能用文 法来指 定而不 能用正 则表达 式指定 的特殊 语言。 

11.2 上 下文无 关文法 

算 术表达 式可以 由递归 定义自 然而然 地定义 出来。 下面 的示例 说明了 这一定 义是如 何起效 
的。 我们来 考虑涉 及如下 内容的 算术表 达式。 

(1) 4 种二元 运算符 +、 -、 *和/; 

(2)  用于分 组的圆 括号； 

(3)  作为操 作数的 数字。 

这种表 达式的 一般定 义是具 有如下 形式的 归纳。 
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依据。 一个 数字是 一个表 达式。 

归纳。 如果 五是表 达式， 那 么以下 各种也 都是表 达式。 

(旬体)。 也就 是说， 我们 可以在 表达式 周围放 上圆括 号以得 到新表 达式。 

(b)  ㈣ 。 也就 是说， 用 加号连 接的两 个表达 式是一 个新表 达式。 

(c) E-F0 这一条 以及接 下来的 两条规 则都与 (b) 类似， 不过使 用了其 他的运 算符。 

(d)  E  *  E0 

(e)  E/E0 

这一归 纳定义 了一种 语言， 也就 是一个 字符串 集合。 依 据陈述 了任意 数字都 在该语 言中。 
规则 (a) 表 7K， 如果 5 ■是 该语言 中的字 符串， 那 么加过 括号的 字符串 (X) 也在 该语 言中， 这一 字符串 
是 ^ 前面 加上左 括号并 且后面 跟上右 括号得 到的。 规则 (b) 到规则 (e) 是说， 如果 s 和? 是该语 言中的 
两个字 符串， 那么 奸?、 S-?、 s*? 和 M 也都是 该语言 中的字 符串。 

文法 让我们 可以写 出这些 简明而 且含义 精确的 规则。 举例 来说， 可 以用图 11-1 所示 的文法 
写岀 我们对 算术表 达式的 定义。 


(1)  < 表达式 >  — 数字 

(2)  <  表达式  >  — (<  表达式 >) 

(3)  <  表达式 >  — •  < 表达式 >+< 表达式 > 

(4)  <表 达式〉 一 >  < 表达式 >- < 表达 式〉 

(5)  <  表达式 >  — •  < 表达式 >*< 表达式 > 

(6)  < 表达式 >  — >  < 表达式 >/ < 表达式 > 


图 11-1 对 应简单 算术 表达式 的文法 

这里 要对图 li-i 中 用到的 符号作 出一些 解释， 符号 
< 表达式 > 

称为语 法分类 （ syntactic  category  ), 它 代表这 一算术 表达式 语言中 的 任意字 符串。 符号 4 
的 含义是 “可由 …… 组 成”。 例如， 图 11-1 中 的规则 (2) 就 表示， 表达 式可由 左括号 后跟上 属于表 
达式 的任意 字符串 再跟上 右括号 组成。 规则 (3) 表明， 表 达式可 由属于 表达式 的任意 字符串 、字 
符 +， 以及属 于表达 式的任 意其他 字符串 组成。 规则 (4) 到 规则⑹ 与规则 (3) 是相 似的。 

规则 (1) 则 不同， 因为 箭头右 侧的符 号数字 从字面 上看本 不是字 符串， 它只是 与可以 解释为 
数字 的字符 串相对 应的占 位符。 我 们在后 面的内 容中会 介绍如 何用文 法定义 数字， 但现 在先只 
把数字 当作一 个抽象 符号， 而 表达式 用该符 号来表 示任意 原子操 作数。 

11.2.1 与文 法相关 的术语 

文法中 会出现 3 种 符号。 第 一种是 “元符 号”， 是 那些扮 演特殊 角色而 并不代 表它们 自身的 
符号。 我 们目前 为止已 经见过 的元符 号只有 — ， 它的 用途是 把要定 义的语 法分类 与该语 法分类 
中字符 串可能 的组成 方式分 隔开。 第二 种符号 是语法 分类， 我们 说过， 这 种符号 表示的 是要定 
义的 字符串 集合。 第 三类符 号称为 终结符 （terminal)。 终结符 可以是 + 或 （这 样的 字符， 也可以 
是数 字这样 的抽象 符号， 它代 表我们 希望在 随后定 义的字 符串。 

文 法是由 产生式 （production) 组 成的。 图 11-1 中 的每一 行都是 一个产 生式。 一 般而言 ，产 
生式具 有以下 3 个 部分。 

(1)  左部 （head), 就是 箭头符 号左侧 的语法 分类。 

(2)  兀符号 ― > 。 
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(3) 右部 （ body  )， 由箭 头右侧 0 个 或以上 的语法 分类和 （或） 终结符 组成。 

例如， 在图 11-1 的规则 (2) 中， 左部是 < 表达式 >， 而右 部则由 终结符 （、 语法分 类< 表达式 > 
和终 结符） 组成。 

♦ 示例 11.1 

我们 可以通 过为数 字提供 定义来 扩展本 节开始 时对表 达式的 定义。 这 里要假 设数字 是由数 
码 （digit) 组 成的字 符串。 借用 10.6 节中扩 展过的 正则表 达式表 示法， 可以说 

digit  =  [0-9] 

number  =  digit" 

不 过也可 以用文 法表示 法来表 示同样 的概念 ，我们 可以写 出以下 产生式 
〈数码  >  一  0|1|2|3|4|5|6|7|8|9 
〈数字 >  — • 〈数码 > 

〈数字 >  — 〈数字  > 〈数码 > 

请 注意， 根据 我们对 元符号 I 的 约定， 第一 行其实 是以下 10 个 产生式 的简化 形式。 

<数码>—  0 
〈数码 >— >•  1 

< 数码 >4  9 

可以 用同样 的方法 把对应 < 数字 > 的两个 产生式 合并成 一行。 请 注意， 对应 < 数字 >的 第一个 
产生 式表示 单个数 码是个 数字， 而第二 个产生 式的意 思是， 任何数 字后跟 上另一 个数码 也是数 
字。 这 两个表 达式一 起就表 示任何 由数码 组成的 串都是 数字。 

图 11-2 是扩 展过的 表示表 达式的 文法， 其 中抽象 的终结 符数字 被替换 为定义 了该概 念的产 
生式。 请 注意， 该文 法含有 3 个语 法分类 < 表达式 >、 < 数字 >和< 数码 >。 我们 会把语 法分类 < 表达 
式> 当作起 始符号 （ start  symbol  )， 它生 成了要 用该文 法定义 的串， 在 这种情 况中， 就是 格式标 
准的 算术表 达式。 其他 两个语 法分类 < 数字 >和< 数码 >代 表的补 充概念 是很关 键的， 但不 是写出 
该文 法所需 的主要 概念。 


表 示方式 的约定 

在表示 语法分 类时， 我们是 在其斜 体名称 （ 中文为 楷体） 的两侧 加上尖 括号表 示的， 例如， 
< 表达式 >。 产 生式中 的终结 符或者 用代表 字符串 x 的粗体 x 来表示 （类 似正 则表达 式的约 定）， 
或者在 终结符 为抽象 符号的 情况下 （比 如之 前例子 中的数 字）， 用不 带尖括 号斜体 字符串 （中 
文为 楷体） 表示。 

元符号 e 表示空 右部。 因此 产生式 —  £ 意 味着语 法分类 <5*> 的语言 中包含 了空字 符串。 
我 们有时 会将某 一语法 分类的 右部合 并到一 个产生 式中， 分 别用可 以称作 “或” 的 元符号 | 隔 
开。 例如， 如果 有以下 产生式 


<S>  一 >  Bx  ,  <S>  一 >  B2 ， …， <S>  一 >  Bn 

其 中这些 5 分别是 对应语 法分类 <5> 的各产 生式的 右部， 那么可 以将这 些产生 式写为 

<S>^B,  |  B2  I  -  I  Bn 
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(1)  < 数码 >  - >0|1|2|3|4|5|6|7|8|9 

(2)  <  数字  >  —  <数码> 

(3)  <  数字  >  —<  数字  >  —  <  数码 > 

(4)  <表 达式〉 一 >  < 数字〉 

(5)  < 表达式 >  — >  (< 表达式 >) 

(6)  <表 达式〉 —  <表 达式〉 +  <表 达式〉 

(7)  <表 达式〉 一 >  < 表达 式〉—  <表 达式〉 

(8)  < 表达式 >  —  < 表达式 >  *  < 表达式 > 

(9)  < 表达式 >  — ■  <表 达式〉 /  < 表达式 > 


图 11-2 与由用 文法定 义的数 字组成 的表达 式对应 的文法 


♦ 示例 1 1 .2 

2.6 节 中曾讨 论过平 衡圆括 号串的 概念。 当 时我们 是用非 正式的 方式给 出了组 成这种 串的归 
纳 定义， 而 正式形 式的书 写文法 正是本 节要介 绍的。 我们 定义了  “平 衡圆括 号串” 的语法 分类， 
这里 称其为 < 平衡的 >。 依据 规则陈 述了空 串是平 衡的。 可 以将该 规则写 为如下 产生式 
<平 衡的 >— •  e 

然后就 是归纳 步骤， 说的 是如果 和: F 都是平 衡圆括 号串， 那么 也是。 可以 把这一 规则 写为产 
生式 

< 平衡的 >  — (  < 平衡的 >  )  < 平衡的 > 

因此， 图 11-3 中的文 法可以 说是定 义了平 衡圆括 号串。 


<平 衡的〉 —  6 

< 平衡的  >  — (<  平衡的  >)  <  平衡的 > 

图 11-3 对应 平衡圆 括号串 的文法 

还 有另一 种定义 平衡括 号串的 方式。 回 想一下 2.6 节， 我们 描述这 种串的 原始动 机就是 ，它 
们 是删除 了表达 式中除 括号外 所有内 容后留 下的括 号的子 序列。 图 11-1 给 出了对 应表达 式的文 
法。 考虑 一下， 如果 删除掉 除括号 之外的 所有终 结符， 会发生 什么。 此时 产生式 (1) 就成了 
〈表 达式〉 一 ^  e 
产生式 (2) 变成了 

< 表达式 >  一 >  (  < 表达式 >  ) 

而 产生式 (3) 到 产生式 (6) 都成了 
< 表达式 >  一 >  < 表达式 >  < 表达式 > 

如果用 更为合 适的名 称< 平衡 表达式 > 来代替 < 表达式 >， 就 得到另 一种表 示平衡 圆括号 串的文 
法， 如图 11-4 所示。 这 些产生 式都是 相当自 然的。 它 们表明 了如下 3 点。 

(1)  空 串是平 衡的； 

(2)  如 果为平 衡的串 加上圆 括号， 得 到的串 也是平 衡的； 

(3)  而 且平衡 串的串 接是平 衡的。 


< 平衡 表达式 >  — e 
< 平衡 表达式 > ， （< 平衡 表达式 >) 

< 平衡 表达式 >  — (< 平衡 表达式 >)  < 平衡 表达式 > 


图 11-4 由算 术表达 式文法 发展来 的表示 平衡圆 括号串 的文法 
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图 11-3 和图 11-4 中的文 法看起 来相当 不同， 不 过它们 定义了 相同的 字符串 集合。 证 明它们 
确实 定义了 同一字 符串集 合最简 单的方 式也许 就是证 明由图 1 1-4中<  平衡 表达式  >  定义的 圆括号 
串刚 好就是 2.6 节中 定义的 “量变 平衡” 圆括 号串。 好了， 现 在证明 了与图 11-3中< 平衡的 > 定义 
的 圆括号 串有关 的相同 断言。 


共用文 法模式 

示例 11.1 用了两 个对应 < 数字 >的 产生式 来说明 “ 数字是 由数码 组成的 串”。 这种模 式就是 
共 用的。 一般 而言， 如 果有语 法分类 <尤>， 而且 Y 是终 结符或 是另一 个语法 分类， 产生式 

<X>^<X>Y\Y 

说明 任意由 y ■组 成的 串都是 如果用 正则表 达式来 表示， 就是 <尤>  =疒。 同样， 产生式 

<X>^  <X>Y\e 

就表示 每个由 o 个或 更多的 y 组成的 串都是 <x>， 或者说 <x>  =  y% 由 

<X>^<X>ZY\Y 

这样一 对产生 式表示 的也是 种共用 模式， 表示 每个开 头和结 尾都是 7 而且由 7 和 Z 交替组 成的串 
都是 <Z>。 也 就是说 ， <X>  =  Y(ZY)*o 

此外， 我们 可以反 转上述 3 个 例子任 意一个 中递归 产生式 右部中 符号的 次序， 例如 

<X>^Y<X>\Y 

也 定义了  <0>  =疒。 


♦ 示例 11.3 

还可以 用文法 的方式 来描述 c 语言 这样的 编程语 言中控 制流的 结构。 举 个简单 的例子 ，想 
象条 件和简 单语句 这两个 抽象终 结符。 前 者代表 条件表 达式。 我们 可以把 这一终 结符替 换为语 
法 分类， 假如说 是< 条件 >。 < 条件 > 的产生 式可以 用之前 所述的 表达式 文法来 构建， 但是 用到的 
运算符 包含了 && 这样的 逻辑运 算符、 < 这样的 比较运 算符， 以及 算术运 算符。 

终结符 简单语 句代表 不含嵌 套控制 结构的 语句， 比如 赋值、 函 数调用 、读、 写 或跳转 语句。 
我们 再次用 语法分 类和扩 展它的 产生式 代替了 这一终 结符。 

这里要 用< 语句 > 表示 C 语言 语句 的语法 分类。 形成语 句的方 式之一 是通过 while 结构。 也就 
是说， 如果有 一条可 作为循 环体的 语句， 就可以 在它之 前加上 关键词 while 和带 括号的 条件， 
从 而形成 另一条 语句。 对应这 一语句 形成规 则的产 生式为 
<语 句 >  一  while  ( 条件） <语 句 > 

另一种 构建语 句的方 式是通 过选择 语句。 这些 语句具 有两种 形式， 取决于 是否有 else 部分 ，它 
们可 以用 以下两 个产生 式表示 
< 语句 >— if  ( 条件） 〈语句 > 

〈语 句〉 一 if  ( 条件） 〈语句 >else<"^ 句 > 

还有其 他的语 句形成 方式， 比如 for 语句、 repeat 语句和 case 语句。 这里将 表示它 们的产 
生式留 作本节 习题， 它们 从实质 上讲与 我们已 经看到 的产生 式是类 似的。 

不过， 还有另 一种重 要的形 成规则 —— 程 序块， 它与我 们已经 看到的 那些多 少有些 区别。 
程序 块是由 花括号 {和} 包围 0 条 或更多 语句构 成的。 要 描述程 序块， 就需要 一个补 充语法 分类， 
这里将 其称为 < 语句列 >， 它代 表一列 语句。 对应 < 语句列 > 的产 生式很 简单， 就是 
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<语 句列 >— e 

〈语 句列〉 — < 语句列  > 〈语句 > 

也就 是说， 第 一个产 生式说 明语句 列可以 为空。 而第 二个产 生式则 表示如 果在一 列语句 后再加 
上 另一条 语句， 还 是会得 到一列 语句。 

现在就 可以定 义由语 句列围 上{ 和} 构成 的程 序块语 句了， 也就是 
〈语 句〉— (<  语句列 >) 

我 们已经 给岀的 这些产 生式， 加上 陈述了 语句可 以是简 单语句 （赋 值、 调用、 输入 / 输岀或 跳转） 
跟上 分号的 依据产 生式， 就如图 11-5 所示。 


〈语句 >  — while  (条 件） 〈语 句〉 

< 语句 >  if  (语 句） < 语句 > 

< 语句 >  — »  if  (语 句） <语句>6186<语句> 
〈语 句〉— {< 语句列 >} 

< 语句  >  — >  简单 语句； 

<语 句列 >  — e 

<语 句列  >  —  < 语句列  >< 语句 > 


图 11-5 定义了  C 语言中 某些语 句形成 方式的 产生式 


11.2.2  习题 

(1)  为所 有属于 c 语言 标识符 的字符 串给出 定义了 语法分 类< 标识符 >的 文法。 大家会 看到， 定 义一些 
像<  数码  >  这样的 辅助语 法分类 是很实 用的。 

(2)  C 语 言中的 算术表 达式可 以接受 标识符 和数字 作为操 作数。 修改图 11-2 中的 文法， 使 得操作 数也可 
以是标 识符。 使 用习题 (1) 中 得到的 文法来 定义标 识符。 

(3)  数字 可以是 实数， 有着小 数点和 10 的任意 乘方， 也 可以是 整数。 修改图 11-2 中 表示表 达式的 文法， 
或修 改习题 (2) 中 写岀的 文法， 允 许实数 作为操 作数。 

(4)  *C 语 言算术 表达式 的操作 数还可 以是涉 及指针 （*和& 运算 符） 的表 达式， 记录 结构体 的字段 （ . 
和- >运 算符） 或数组 索引。 数组 的索引 可以是 任意表 达式。 

(a)  为用来 定义由 一对方 括号包 围表达 式构成 的字符 串的语 法分类 < 数组引 用> 写岀相 应文法 。可 
以利用 语法分 类<  表达式  >  作为 辅助。 

(b)  为用来 定义作 为操作 数的字 符串的 语法分 类< 名字 >写 岀相应 文法。 就像 1.4 节 中介绍 过的那 
样， （*a)  .b[c]  [d] 就是个 名字。 可以 利用语 法分类 < 数组引 用> 作为 辅助。 

(c)  为 允许使 用名字 作为操 作数的 算术表 达式写 岀相应 文法。 可以 使用语 法分类 <名 字> 作为 辅助。 
在将 (a)、 （b)、 （c) 这 3 个 小题得 到的产 生式结 合在一 起后， 能否得 到允许 a[b.c]  [*d]+e 这种表 
达式 存在的 文法？ 

(5) * 证明图 11-4 的 文法可 以生成 2.6 节 中定义 的量变 平衡括 号串。 提示： 与 2.6 节 中的证 明过程 类似， 
要两次 用到对 括号串 长度的 归纳。 

(6)  * 有时 候表达 式可以 有两种 或更多 种平衡 括号。 例如， C 语 言表达 式可以 同时具 有圆括 号和方 括号, 
而且 两种括 号肯定 都是平 衡的， 也就 是说， 每个 （都 必须 匹配一 个）， 而每个 [都 必须 匹配一 个]。 
为具 有这两 种类型 括号的 平衡括 号串写 岀相应 文法。 也就 是说， 该文 法生成 的平衡 括号串 只能是 
格式 标准的 C 语言 表达式 中可能 岀现的 那些。 

(7)  为图 11-5 中的 文法添 加定义 for 语句、 do-while 语句和 switchi 吾 句的产 生式。 可以 恰当地 使用抽 
象终结 符和辅 助语法 分类。 
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<S>  — >  w  c  <S> 
<S>  {  <L>  } 

一 ^  s  5 

<L>  <L>  <S> 

<L>  —  e 


图 11-6 简化 过的表 示语句 的文法 

设 Z 是语 法分类 <Z> 中字 符串的 语言， 并设 *S 是语法 分类< 於中字 符串的 语言。 一 开始， 根据 
依据 规则， Z 和储卩 为空。 在第一 轮中， 只有 产生式 (3) 和 产生式 (5) 是有 用的， 因为 其他产 生式的 


(8) * 扩 展示例 11. 3 中 的抽象 终结符 条件， 以体现 逻辑运 算符的 使用。 也就 是说， 定义语 法分类 <条 
件>取 代抽象 终结符 条件。 可 以使用 抽象终 结符比 较表示 x+l<y+z 这样的 比较表 达式， 然后以 
利用  <  这样的 比较运 算符表 示的语 法分类  <  比较  >  和语 法分类  <  表达式  >  替代抽 象终结 符比较 。语 
法分类 < 表达式 > 可以像 11. 2 节 开头那 样粗略 定义， 不过还 要加上 C 语言 中的 其他运 算符， 比如 
一元 减号和 ％。 

(9) **写 岀可以 定义语 法分类 < 简单语 句> 的产 生式， 替换图 11-5 中的抽 象终结 符简单 语句。 可 以假设 
语法分 类< 表达式 >  代表了 C 语言 算术表 达式。 回想 一下， 简 单语句 可以是 赋值、 函 数调用 或跳转 
语句， 而 且严格 来说， 空串也 是简单 语句。 

11.3 源 自文法 的语言 

文法从 本质上 讲是涉 及字符 串集合 的归纳 定义。 2.6 节中那 些归纳 定义的 示例与 11.2 节中很 
多例 子的主 要区别 在于， 对文法 而言， 一 种文法 定义若 干语法 分类的 情况很 常见。 而 2.6 节中各 
个 例子都 定义了 单独的 概念。 虽然存 在这种 区别， 但 2.6 节中 用来构 建已定 义对象 集合的 方法也 
适用于 文法。 对 某文法 的各语 法分类 <5> 而言， 可以按 照如下 方式定 义语言 
依据。 首先 假设对 文法中 的各语 法分类 <5> 而言， 语言 A<5>) 为空。 

归纳。 假 设该文 法具有 产生式  <5  >4  其中对 /  =  1、2、 …、 n ， 各个 足要么 是语法 

分类， 要 么是终 结符。 并且对 /  =  1、2、 …、 《 ， 按照如 下方式 为各个 足选择 一个字 符串如 

(1)  如果名 是终 结符， 就可以 只使用 X 作为 字符串 A。 

(2)  如果名 是语法 分类， 就可以 选择任 何一个 已知在 中的字 符串作 为&。 如果 若干个 式. 
是相同 的语法 分类， 就可以 从各次 岀现的 中 分别选 不同的 字符串 作为& 

那么 所选的 这些字 符串的 串接^ 就 是语言 中的字 符串。 请 注意， 如果 《  =  0, 
就把 £： 放到该 语言中 。 

实 现这一 定义的 一种系 统化方 法是经 过该文 法各产 生式若 干轮。 在每 轮中， 我们要 以所有 
可 能的方 式利用 归纳规 则更新 各语法 分类的 语言。 也就 是说， 对 各个属 于语法 分类的 名， 要以 
所有 可能的 方式从 本) 中 选出字 符串。 

♦ 示例 1 1 .4 

考 虑一种 由示例 11.3 介 绍的与 某几种 C 语言语 句对应 的文法 中的一 些产生 式组成 的文法 。简 
单 起见， 我们 只会用 到对应 while 语句、 程 序块和 简单语 句的产 生式， 以 及对应 语句列 的两个 
产 生式。 此外， 还要 使用简 略表示 法来合 理压缩 这些字 符串的 长度。 简 略表示 用到了 终结符 w 
( while  ),  c  ( 带 括号的 条件） 和3  ( 简单语 句）。 该文 法使用 语法分 类< 於表示 语句， 并使 用语法 
分类 </> 表示语 句列。 该文法 的产生 式如图 11-6 所示。 


\ — / 、 — /  \ — /  、 — / 、 — / 


12  3  4  5 
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右 部都含 有语法 分类， 而此时 对应这 些语法 分类的 语言中 还没有 任何字 符串。 产生式 (3) 表明了 
s; 是语言 ^中 的字 符串， 而 产生式 (5) 则告诉 我们 e 在语言 Z 中。 

第 二轮开 始时， 有1=  {£}和5=  {s;}。 产生式 (1) 现在 让我们 可以把 wcs; 添加到 S 中， 因为 
s; 已经在 ^ 中了。 也就 是说， 在 产生式 (1) 的右 部中， 终结符 w 和 c 只能代 表它们 本身， 语 法分类 
<5>则 可以被 替换为 语言* S 中的 任意字 符串。 因 为目前 s; 是 ^ 中唯 一的字 符串， 所以 我们只 能作出 
这一个 选择， 而 这一选 择的结 果就是 wcs;。 

产生式 (2) 添加了 字符串 {}， 因为 终结符 {和} 只能代 表它们 自身， 不过语 法分类 <Z> 可以代 
表语言 Z 中的 任意字 符串， 而此刻 Z 中 只含有 e。 

因为 产生式 (3) 的右 部只由 终结符 构成， 所以它 决不会 产生除 s; 之 外的字 符串， 因此 从现在 
开 始就可 以忘掉 该产生 式了。 同样， 产生式 (5) 也不会 产生除 e 之外 的字 符串， 所 以在本 轮及以 
后 的轮次 中也可 以忽 略它。 

最后， 当 我们用 £： 代替 <1> 并用 $代替<於 之后， 产生式 (4) 就为 Z 产生了 字符串 s;。 在第二 
轮 结束的 时候， 语言 tkwcs; ，出， 而语言 i：={e:;s;}。 

在下一 轮中， 可 以使用 产生式 ⑴、 （2) 和 (4) 产生 新的字 符串。 产 生式⑴ 中替换 <S> 的 选择有 
3 种， 分别是 s;、 wCS,^{}。 用 S; 替换后 得到的 字符串 是语言 5中 已经具 有的， 不 过替换 了另两 
个 字符串 后得到 的是新 字符串 WCWCS; 和 WC  {  } 。 

对 产生式 (2) 而言， 可以用 e 或 s; 替换 <Z>， 为语言 对辱出 旧字符 串{} 和新 字符串 {s;}。 在产 
生式 (4) 中， 可以用 £： 或 s; 替换 </>， 并用 s;、 ，^3;或{} 替换 <5>， 这 给语言 Z 带来 了一个 旧字符 
串 s;， 以及 5 个新 字符串 WCS;、 {}、 s;s;、 s;wcs; 和 s;{}。 ® 

这样 语言 就成了  5  ={s;,wcs;,{},wcwcs;,wc{},{s;}} 和  Z  =  {e:,s;，wcs;,{},s;s;,s;wcs;,s;{}} 。 
我们可 以按照 自己的 意愿继 续这一 过程。 图 11-7 总 结了前 3 轮的 情况。 
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L 

Round  1: 

s; 

6 

Round  2: 

wcs; 

S； 

o 

Round  3: 

¥C¥CS ； 

wcs ; 

wcO 

{} 

{s；} 

s;s; 

s ; wcs ; 

S;0 

图 11-7 前 3 轮 每轮产 生的新 字符串 


正 如示例 11.4 中 那样， 由文法 定义的 语言可 能是无 限的。 如果语 言是无 限的， 我们就 不能一 
一列出 所有字 符串。 能做到 的最佳 做法就 是按轮 次枚举 这些字 符串， 就 像示例 11.4 中一开 始所做 
的 那样。 该语言 中的任 何字符 串都将 在某轮 岀现， 不过在 任何一 轮都不 可能产 生岀所 有的字 符串。 
可以被 放进语 法分类 <於 的 语言中 的那些 字符串 组成的 集合， 就 形成了 （无 限） 语言 Z(<5t>)。 


① 我们 非常关 心用字 符串替 换语法 分类的 方式。 假 设经过 每一轮 替换， 语言 i 和储 P 和它 们在上 一轮结 束时的 定义保 
持 不变。 每个产 生式的 右部都 要进行 替换。 这 些右部 可以为 左部的 语法分 类产生 新的字 符串， 不过 在同一 轮替换 
中， 我们不 会在一 个产生 式的右 部使用 由另一 个产生 式新构 建的字 符串。 但 这也没 关系， 所 有要生 成的字 符串最 
终都 会在某 一轮中 生成， 不管 我们是 立即在 右部中 循环使 用新字 符串， 还是 等待在 下一轮 中再使 用新字 符串。 
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习题 

(1)  在示例 1 1.4 中， 第四轮 添加的 新字符 串都有 哪些？ 

(2)  * 在示例 11.4 的 第滟替 换中， 为 各语法 分类产 生的新 字符串 中最短 的字符 串各是 什么？ 为 下列语 
法 分类产 生的最 长新字 符串又 分别是 什么？ 

(a)  <S> 

(b)  <Z>? 

(3)  分 别使用 下列图 中的文 法按轮 次生成 平衡括 号串。 

⑻ 图 11-3 
(b) 图 11-4 

这两种 文 法在相 同 轮次中 是 否会生 成相同 的 平衡括 号串？ 

(4)  假 设每个 以某语 法分类 <於 为 其左部 的产生 式在其 右部中 也含有 <於， 那么 为什么 Z(< 於) 为空？ 

(5)  * 在如 本节所 描述的 方式按 轮次生 成字符 串时， 为 语法分 类<於 生成的 新字符 串只可 能是通 过替换 
某有关 <於 的产生 式中右 部的语 法分类 得到， 满 足至少 有一个 被替换 的字符 串是在 上一轮 中新发 
现的。 解 释一下 为什么 楷体标 记的条 件是正 确的。 

(6)  ** 假设我 们想分 辨某个 特定的 字符串 s 是否在 某语法 分类< 於的语 言中。 

(a)  解释 一下， 为什么 如果在 某轮中 所有为 任意语 法分类 生成的 新字符 串都比 s 长， 而且 s 尚未为 
1(< 办) 生成， ^ 就 不可能 被放人 1(<办) 中。 提示： 利 用习题 (5)。 

(b)  解释 一下， 为 什么在 有限轮 次的替 换后， 一定 没法继 续生成 不长于 s 的新字 符串。 

(c)  使用 (a) 和 (b) 的 结论设 计一种 算法， 接受某 文法、 该 文法的 一种语 法分类 <於， 以及某 个终结 
符串 L 并 分辨岀 s 是否在 中。 

1 1 .4 分析树 

正 如我们 已经看 到的， 通 过反复 应用产 生式， 可以为 某语法 分类< 於得岀 字符串 于语言 
1(<於) 的 结论。 从由 右部中 不含语 法分类 的依据 产生式 得到的 字符串 开始。 然后， 对已经 从各语 
法分类 得到的 字符串 “ 应用” 产 生式。 每次应 用都要 用字符 串替换 产生式 右部中 出现的 各语法 
分类， 并构造 岀属于 产生式 左部中 语法分 类的字 符串。 最终， 我们将 通过应 用左部 为<於 的产生 
式 来构造 字符串 

把 ^ 在 1(<於) 中的 “ 证明” 画成一 棵称作 分析树 ( parse  tree  ) 的 树往往 是很实 用的。 分析树 
的 节点都 是带标 号的， 要 么是终 结符， 要么 是语法 分类， 要么 是符号 e。 叶子节 点只会 被标记 
为 终结符 或符号 £： ， 而内部 节点只 可能用 语法分 类作为 标号。 

每个内 部节点 v 都表 示产 生式的 应用。 也就 是说， 一定存 在某个 产生式 同时满 足下列 条件： 

(1)  标号 v 的语 法分类 是该产 生式的 左部； 

(2)  v 的子 节点的 标号从 左往 右构成 了该产 生式的 右部。 

♦ 示例 11.5 

图 11-8 展示 了一棵 基于图 11-2 所示文 法的分 析树。 不过， 在这里 我们把 语法分 类< 表达式 >、 
< 数字 >和< 数码 > 分别 简称为 <五>、 <#> 和 <乃>。 该分 析树表 示的字 符串是 3*  (2  +  14)。 

例如， 这棵 分析树 的根节 点及其 子节点 就表示 产生式 

<E>  —  <E>  *  <E> 

就是图 11-2 中的 产生式 (6)。 根节 点的最 右子节 点及其 子节点 形成了 产生式 <五>  — (<E>), 
或者说 是图 1 1  -2 中 的 产生式 ⑶ 。 
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<E> 


<E> 


木 


<E> 


<N> 

<D> 

3 


<E> 


<E>  +  <E> 

<N>  <N> 


<D>  <N>  <D> 

2  <D>  4 

1 


图 1 1-8 使用图 1 1-2 所示 文法的 字符串 3*  (2+14) 对应的 分析树 

11.4.1 分析树 的构建 

每棵分 析树都 表示某 一终结 符串& 我们 可将该 串称为 这棵树 的产出 （yield)。 串 s 由 相应分 
析 树所有 叶子节 点的标 号按照 从左到 右的次 序排列 而成。 此外， 通 过对分 析树进 行前序 遍历并 
只 依次列 出那些 属于终 结符的 标号， 我们也 可以得 到这一 产岀。 例如， 图 11-8 所 示分析 树的产 

出就是 3*  (2  +  14)。 

如 果树只 有一个 节点， 那 么该节 点的标 号就只 能是某 个终结 符或者 e ， 因为 它是个 叶子节 
点。 如果该 树不止 有一个 节点， 那么根 节点的 标号就 是语法 分类， 因为在 一棵有 两个或 更多个 
节点的 树中， 根节 点总是 个内部 节点。 而 且该语 法分类 的字符 串中总 是会包 含该树 的产出 。与 
某给定 文法对 应的分 析树的 归纳定 义如下 所述。 

依据。 对 文法中 的每个 终结符 x 来说， 存在 一棵只 含一个 标号为 x 的节点 的树。 当然， 该树 
的产 岀就是 X。 

归纳。 假设 我们有 产生式 …; ， 其 中各个 4 要 么是终 结符， 要么 是语法 分类。 
如果 /7  =  0, 也就 是说， 该产生 式实为 那么 就有一 棵像图 11-9 这样 的树。 其 产出为 £：， 
而且根 节点为 <5>， 因为 有该产 生式， 所以空 串£ :显 然是在 中的。 

<S> 


图 1 1  -9 由 产生式 <於^  e 得到 的 分析树 

现 在假设 <  S  >4  … 义 而且 《 彡 1 。 我们 可以按 照如下 方式， 对每个 =  1、2、 …、 《 而言， 

为各个 A 选择树 7：。 
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(1)  如果 牟是终 结符， 就必须 选择标 号为牟 的单节 点树。 如果 有两个 或多个 X 是同 一终结 
符， 就必 须为该 终结符 的每次 岀现选 择具有 相同标 号的不 同单节 点树。 

(2)  如果 X 是语法 分类， 我们可 以选择 任何已 经构建 好的以 A 作为根 节点标 号的分 析树， 
然后 构建一 棵像图 11-10 这样 的树。 也就 是说， 我们创 建的根 节点标 号是该 产生式 左部的 语法分 
类 <於， 而这棵 树根节 点的子 节点从 左到右 依次是 为不 、石 、… 、不选 择的 树的根 节点。 如 果有两 
个 或多个 X 是相同 的语法 分类， 我们也 许要为 各语法 分类选 择相同 的树， 但是必 须在该 树每次 
被选 中时为 其生成 不同的 副本。 我们还 可以为 同一语 法分类 的不同 出现选 择不同 的树。 


图 1 1-10 利 用产生 式和其 他分析 树构建 分析树 


♦ 示例 11.6 

我们 来研究 一下图 11-8 中分 析树的 构造， 看 看它的 结构是 如何模 仿证明 字符串 3*  (2  +  14) 
在 1(<五>) 中的过 程的。 首先， 可以为 该树中 的各个 终结符 构造一 棵单节 点树。 然后图 11-2 中第 (1) 
行的 产生式 组说明 了  10 个数码 都是属 于1(<£»>) 的长 度为 1 的字 符串。 我 们用到 其中的 4 个 产生式 
创建图 11-11 所示的 4 棵树。 例如， 我 们利用 产生式 按 照如下 方式创 建了图 11-lla 中的分 
析树， 为 右部中 的符号 1 创建 一 '棵 只有 一 '个 标号为 1 的节点 的树， 然后， 创建 一 ■个 标号为 々^^的 
节点 作为根 节点， 并以 我们为 1 选择 的树的 根节点 （也是 唯一的 节点） 作 为其子 节点。 


<D> 

<D> 

<D> 

<D> 

1 

2 

3 

4 

(a) 

(b) 

(c) 

(d) 

图 1 1-1 1 使用 产生式 以及 相似的 产生式 构建的 分析树 

下一 步是要 利用图 11-2 中的 产生式 (2)， 或 者说是 <#>^<D>， 来揭示 数码就 是数字 这一事 
实。 例如， 可以 选择图 11-lla 所示的 树替换 产生式 (2) 右 部中的 <£>>， 得出图 ll-12a 所 示的树 。图 
11-12 中的另 两棵树 也是用 相似的 方式产 生的。 

<N>  <N>  <N> 

<D>  <D>  <D> 

12  3 

(a)  (b)  (c) 

图 11-12 使用 产生式 <iV>  —  <Z> 构建的 分析树 
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现在可 以利用 产生式 (3)， 也就是 <#>^<#><0>了 。我 们将 会为右 部中的 <#> 选择图 ll-12a 
所示 的树， 并为 <X»> 选择图 11-lld 所示 的树。 还要为 左部创 建一个 标号为 <#> 的新 节点， 并为该 
节 点指定 两个子 节点， 也就 是选中 的两棵 树的根 节点。 得到的 树如图 11-13 所示。 该树的 产出是 
数字 14。 


<N> 


<N>  <D> 


<D>  4 


图 1 1  - 1 3 用产生 式<^>  —  <N>  <Z> 构建的 分析树 

下一个 任务就 是为和 2  +  14 创建分 析树。 首先， 我们 要用到 产生式 (4)， 即 <£>  —  <#> ，以 
建立图 11-14 所示的 分析树 。这 些树 表明了 3 、2 和 14 都是 表达式 。这些 树中的 第一棵 源自图 11-12C 
中为右 部中的 <况> 选择 的树， 第 二棵是 通过图 ll-12b 中为 <#> 选择的 树得到 的， 而 第三棵 则是选 
择图 11- 13 中 的树得 到的。 

然后可 以使用 产生式 (6)， 也就是 <五>  ^  <五>  +  <五>。 对右 部中的 第一个 <£>, 我们 使用了 
图 ll-14b 中 的树， 而对右 部中的 第二个 <£>， 则是使 用了图 ll-14c 所示 的树。 为右 部中的 + 使用 
的 是一棵 标号为 + 的单节 点树。 得到的 树如图 11-15 所示， 其 产出为 2  +  14。 

<E>  <E> 


<N>  <N> 


<D>  <D> 


3  2 

(a)  (b) 


图 11-14 使用 产生式  <五>  — 构建的 分析树 

接下来 要用到 产生式 (5)， 或 者说是 <€>—(<£>)， 构建图 11-16 所 示的分 析树。 我们 只要为 
右部中 的 <£> 选择图 1 1  - 1 5 中 的树， 并 为终结 符括号 选择单 节点树 即可。 

最后， 利用 产生式 (8)， 也就是 <£>  —  <£>*  <五>， 构建了 我们最 初在图 11-8 中展 示的分 
析树。 我 们为右 部中的 第一个 <五>选 择了图 ll-14a 所示 的树， 并为 第二个 <£>选 择了图 11-16 
中的树 。 


<E> 

<N> 


<N>  <D> 

<D>  4 

1 


(c) 
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<E> 


<E>  +  <E> 

<N>  <N> 


<D>  <N>  <D> 

2  <D>  4 

1 

图 1 1  - 1 5 使用 产生式 <£>  —  <五>  +  <五>  构建的 分析树 


<E> 


<E>  +  <E> 


<N>  <N> 


<D>  <N>  <D> 


2  <D>  4 

1 

图 1 1-16 使用 产生式 <£>  — (<五>) 构建的 分析树 

11.4.2 分析 树为何 “行 得通” 

分析树 的构建 与字符 串属于 某语法 分类的 归纳定 义非常 相似。 我们可 以通过 两次简 单的归 
纳 来证明 ，对任 意语法 分类< 於来 说， 以 <5*> 为根 节点的 分析树 的产岀 刚好是 Z(<5*>) 中的字 符串。 
也就 是如下 两点。 

(1)  如果 r 是根 节点 标号为 <5> 而且 产出为 s 的分 析树， 那么 字符串 s 在语言 ^(〈於) 中。 

(2)  如果 字符串 浓语言 1(<5*>) 中， 那么 存在产 岀为组 根节点 标号为 <5*> 的分 析树。 

这一等 价关系 应该是 相当直 观的。 粗略 地讲， 分析树 是由更 小的分 析树， 按 照由较 短的字 
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符串构 成长字 符串的 方式， 对产 生式右 部中的 语法分 类进行 替换构 成的。 我们 首先利 用对树 r 
高 度的完 全归纳 证明第 (1) 部分。 

依据。 假设分 析树的 高度是 1。 那么 这棵树 就像图 11-17 所示的 这样， 或者， 在《  =  0 的特例 
中， 就像图 11-9 所 示的树 那样。 构建这 种树的 唯一方 法是， 若存在 产生式 … 其中 
各 X 都是 终结符 (如果 《  =  0  , 该产生 式就是 <5^  ~^e  )o 因此 Xi  中的字 符串。 


图 11-17 高度为 1 的 分析树 


归纳。 假 设命题 (1) 对所 有高度 不超过 A 的树都 成立。 现在考 虑像图 1 1-10 那样高 度为奸 1 的树。 
那么， 对?_=1、2、一、《， 各子树 I. 的高度 至多为 t 如 果这些 子树中 有任何 一棵的 高度达 到或超 
m+U 那 么整棵 树的高 度就至 少是奸 2。 因此， 归 纳假设 适用于 各棵树 7；。 

根 据归纳 假设， 如 果子树 K 的根 节点尤 是语法 分类， 那么 r; 产岀 &就 在语言 Z(JQ 中。 如果不 
是终 结符， 就 定义字 符串& 是不， 那 么整棵 树的产 出就是 

根据分 析树的 定义， 可知 <5>  ―义 足…; ^是产 生式。 假设只 要尤是 语法分 类就用 ^ 替换 名。 
根据 定义， 如果 名是终 结符， 名就是 这样 一来， 替换后 的右部 就成了  … 与该 树的产 
岀是相 同的。 根据 <於 的语言 的归纳 规则， 我 们知道 是在 中的。 

现在 必须证 明命题 (2)， 语 法分类 Z<5> 中的每 个字符 串讀卩 具有以 <於 为根节 点且以 s 为产出 
的分 析树。 首 先要注 意到， 对每个 终结符 X， 存 在根节 点和产 岀都是 x 的分 析树。 现在我 们要对 
得出述 中 时的归 纳步骤 （如 11.3 节 所述， 下 面的证 明中加 引号的 “归纳 步骤” 就 是表示 
该归纳 步骤） 的应用 次数进 行完全 归纳。 

依据。 假 设证明 s 在 Z(< 於) 中需 要应用 “归纳 步骤”  一次。 贝 IJ 一 定存在 产生式 
xn, 其中 所有的 x 都是终 结符， 而且 <5*>  =  x/"xn。 我们 知道对 /  =  1 、 2、 …、 《， 都有 标号为 
\ 的单 节点分 析树。 因此， 存在 产出为 5且 根节点 标号为 的分 析树， 该树 的样子 类似图 11-17 
所示。 在《  =  0 的特 例中， 我们知 道8=€， 此 时就要 使用图 11-9 所示 的树。 

归纳。 假 设应用 “归纳 步骤” 不超过 A 次所 发现的 任意语 法分类 <7> 的语 言中， 任何 字符串 
? 都具 有以? 为产出 而且以 <7> 为根节 点的分 析树。 考虑 通过奸 1 次应用 “归纳 步骤” 找到 的在语 
法分类 <於 的语言 中的字 符串〜 那么， 存在 产生式 且5  =啊-.\， 其中每 
个 子串& 都会是 如下两 种可能 之一。 

(1)  为; ^  ( 如果 X 是终结 符)。 

(2)  某个至 多应用 A 次 “归纳 步骤” 就 可知在 1(名) 中的 字符串 （如 果名是 语法分 类)。 

因此， 对每个 /， 都可以 找到一 棵具有 产出& 而且 根节点 标号为 名的树 7；。 如果 Z； 是语法 分类， 
那么 就利用 归纳假 设声明 7； 存在， 而如果 名是终 结符， 则不需 要归纳 假设就 可以声 明存在 标号为 
X 的单节 点树。 因此， 如图 11-10 中那 样构建 的树具 有产出 s 而且 根节点 标号为 <办， 这样 就证明 
了 该归纳 步骤。 

11.4.3 习题 

(1) 根据图 11-2 所示的 文法， 为以下 字符串 给岀相 应的分 析树。 在 各情况 中根节 点位置 的语法 分类都 
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应该是 〈五 >。 

(a)  35+21 

(b)  123-(4*5) 

(c)  1*2*  (3-4) 

(2)  使用图 11-6 中 的语句 文法， 给岀以 下字符 串的分 析树。 其中每 种情况 下根节 点的语 法分类 都应该 
是  <»5>。 

(a)  wcwcs  ； 

(b)  { s ；  } 

(c)  {s ； wcs ；  } 

(3)  利用图 11-3 中 的平衡 括号串 文法， 给岀以 下括号 串的分 析树。 

(a)  (()()) 

(b)  ((())) 

(c)  ((())()) 

(4)  利用图 1 1  -4 中 的 文法为 习题 (3) 中 的 各括号 串给出 分 析树。 


语法 树和表 达式树 

通常， 像分析 树这样 的树是 用来表 示表达 式的。 例如， 我 们在第 5 章中通 篇都以 表达式 树为例 。语 
法树是 “表达 式树” 的 另一个 名字。 当 我们拥 有如图 11-2 所 示的对 应表达 式的文 法时， 就 可以通 过以下 3 
项 变形 把分析 树转换 成表达 式树。 

(1)  原子 操作数 被压缩 为以该 操作数 为标号 的单个 节点。 

(2)  运算符 从叶子 节点移 动到它 们的父 节点。 也 就是说 ， 像 + 这样的 运算符 符号成 为了原 本在它 上方， 


以语 法分类 “表 达式” 为 标号的 节点的 标号。 

(3) 仍然以 “表 达式” 为标号 的内部 节点要 删除其 标号。 

例如， 图 1 1-8 中的 分析 树就可 以转 化成如 下表达 式树或 者说语 法树。 


11.5 二义 性和文 法设计 

我 们来考 虑如图 1 1-4 所 示的表 示平衡 括号串 的 文法， 这 里用语 法分类 <5>作 为图 1 1-4 中语法 
分 类<平衡>的 缩写。 

<  B  >^  (<  B  >)\<  B  ><  B  >\e  (11.1) 

假设 想要一 棵表示 括号串 （）（）（） 的分 析树。 图 11-18 展示了 两棵这 样的分 析树， 第 一棵是 
把前两 对括号 先分在 一组， 而另 一棵则 先把后 两对括 号分成 一组。 
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<B> 


e  e 


(a) 从左 分组的 分析树 

<B> 


<B>  )  (  <B> 


(b) 从右 分组的 分析树 


图 1 1  - 1 8 有 着同样 的产岀 和 根节点 的两棵 分析树 

出现 这样两 棵分析 树应该 不会让 人感到 惊讶。 一 旦确定 （） 和 （〉 （） 都是 平衡括 号串， 使用 
产生式  <  5  >^<  BxB> 就可 以用 （ ） 替换右 部中的 第一个 <5>并用 ()() 替换 第二个 <5> ， 反之 
亦然。 两种情 况下， 都 能得出 括号串 （） （） （〉 在语 法分类  <5>中。 

如果文 法中有 两棵或 多棵分 析树具 有相同 产岀， 且 其根节 点标号 是相同 的语法 分类， 就说 
该 文法是 二义的 （ambiguous)。 请 注意， 不一 定要每 个字符 串都是 若干分 析树的 产出， 只要有 
一个这 样的字 符串就 足够让 文法具 有二义 性了。 例如， 括号串 （） （） （） 就 足以说 明文法 (11.1) 是 
二 义的。 不 具二义 性的文 法叫作 无二义 （unambiguous) 文法。 在无 二义文 法中， 对每个 字符串 
^ 和语 法分类 < 於而 言， 至多存 在一棵 产出为 5且 根节点 标号为 <5> 的分 析树。 

图 11-3 所示 的文法 就是个 无二义 文法的 例子， 这里 还是用 <於 来代替 < 平衡的 >。 

<B>^{<B>)<B>\e  (11.2) 

证明 文法无 二义是 相当困 难的。 在图 11-19 中 是对应 括号串 （） （〉 （） 的唯 一一 棵 分析树 ，当 
然， 这 一字符 串有着 唯一分 析树的 事实并 不能证 明文法 (11.2) 就 是无二 义的。 我们 证明无 二义性 
的 唯一方 法就是 证明语 言中的 每个字 符串都 具有唯 一的分 析树。 
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<B> 


图 11-19 使 用文法 (11. 2) 表示 字符串 （）（）（） 的唯一 分析树 

11.5.1  表达 式中的 二义性 

尽管图 11-4 中的文 法是二 义的， 但它 的二义 性并没 有太大 坏处， 因为 我们从 左起还 是从右 
起 分组括 号影响 不大。 在考 虑表示 表达式 的文法 （ 比如 11.2 节中图 11-2 所示的 文法） 时， 会发生 
一 些更为 严重的 问题。 具体 地讲， 尽 管一些 分析树 可以给 岀正确 的表达 式值， 但 另一些 分析树 
表示的 是错误 的值。 


无二义 性为何 很重要 

为 程序构 建分析 树的分 析器是 编译器 的关键 部分。 如果描 述编程 语言的 文法是 二义的 ，而 
且如果 其二义 性未被 消除， 那么就 至少有 某些程 序具有 多棵分 析树。 而同 一程序 不同的 分析树 
就为 该程序 赋予了 不同的 含义， 其 中这种 情况下 “ 含义” 是 指由原 始程序 翻译成 的机器 语言程 
序 执行的 操作。 因此， 如果与 程序对 应的文 法是二 义的， 编 译器就 不能正 确地决 定该为 某些程 
序使用 哪棵分 析树， 所以 就不能 决定机 器语言 程序应 该做些 什么。 出 于这种 原因， 编译 器必须 
使 用无二 义性的 规范。 


♦ 示例 1 1 .7 

这 里用简 略表示 法来表 示示例 11.5 中 给出的 表达式 文法， 并考虑 表达式 1-2  +  3。 它 具有两 
棵分 析树， 取决于 是从左 还从右 组合运 算符。 这两 棵分析 树如图 ll-20a 和图 ll-20b 所示。 

图 ll-20a 中的 树是从 左起结 合的， 因 此操作 数是从 左起分 组的。 这种分 组是正 确的， 因为 
我们 一般会 从左起 分组优 先级相 同的运 算符， 1-2  +  3 习惯被 解释为 （1-2  )+3， 其值为 2。 如果 
我 们为构 建起图 ll-20a 所示树 的子树 表示的 表达式 求值， 就 要首先 在根节 点的最 左子节 点处计 
算 1- 2  =  - 1， 然 后在根 节点计 算 -1+3=2。 

另一 方面， 对从右 侧起关 联的图 ll-20b， 会把该 表达式 分组为 1-( 2+3) ， 其值为 -4。 不过， 
对该 表达式 的这种 解释是 不合规 定的。 值 -4 是在 构建图 ll-20b 的 树时得 到的， 因 为我们 先在根 
节点的 最右子 节点处 计算了 2+3  =  5, 然 后在根 节点处 计算了  1-5  =  -4。 

从错误 的方向 结合优 先级相 等的运 算符可 能导致 问题。 而优先 级不同 的运算 符也可 能带来 
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问题， 正如 我们在 接下来 的示例 中要看 到的， 有可能 在结合 更高优 先级的 运算符 之前先 结合了 
低优先 级的运 算符。 


<E> 


<E>  +  <E> 


<E>  —  <E>  <N> 


<N>  <N>  <D> 


<D>  <D>  3 


2 


<E> 


<E> 


<E> 


<N>  <E>  +  <E> 


<D>  <N> 


1  <D> 


2 


<N> 


<D> 


(a) 正确的 分析树  （b) 不 正确的 分析树 

图 11-20 对应 表达式 1-2 +  3 的两棵 分析树 


♦ 示例 1 1 .8 

考虑 表达式 1  +  2 *3。 在图 ll-21a 中， 我们看 到表达 式是从 左起分 组的， 这是不 对的， 而图 
ll-21b 所 示的则 是正确 的从右 边起的 分组， 这样 乘法的 操作数 才在加 法之前 分组。 前一 种分组 
会得 出不正 确的值 9, 而 后面的 分组则 会产生 合乎规 则的值 7。 


<E> 


<E>  *  <E> 


<E>  +  <E>  <N> 


<N> 


<D> 


<N>  <D> 


<D>  3 


2 


<E> 


<E>  +  <E> 


<N>  <E>  *  <E> 


<D>  <N> 


1  <D> 


2 


<N> 


<D> 


(a) 不 正确的 分析树  （a) 正确的 分析树 

图 11-21 表示 表达式 1+2*3 的两棵 分析树 
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11.5.2 表示 表达式 的无二 义文法 

就像表 示平衡 括号串 的文法 (11.2) 可 以被视 作文法 (11.1) 的无二 义版本 那样， 也可 以为示 
例 11.5 中的 表达式 文法构 建一个 无二义 版本。 “ 窍门” 就 是定义 有着如 下直觉 含义的 3 个语法 
分类。 

(1) < 因式 > 生成了 不能被 “提 取出” 的表 达式， 也就 是说， 因式 要么是 单个操 作数， 要么是 
加了 括 号的表 达式。 

(2)  <项> 生成 了因 式的积 或商。 单 个因式 是项， 因此 一列由 *或/ 运算符 分隔的 因式也 是项。 
12 和 12 /3<  因式 >*45 都 是项。 

(3)  < 表达式 >生 成了一 项或多 项的和 或差。 单 个项就 是个表 达式， 因此 一列由 + 或- 运算符 

分 隔的项 也是表 达式。 12、 12/3*45 和 12+3*45-6 都是表 达式。 

图 11-22 就是 表示表 达式、 项和 因式间 关系的 文法。 我们 用简写 <£>、 <2>和<^>分 别代表 < 
因式 >、 <项>和< 表达式 >。 


⑴ 

<E>  — 

<E>  +  <T>  <E>  —  <T>  |  <T> 

(2) 

<T>  — 

<r>  *  <F>  |  <T> / <F>  |  <F> 

(3) 

<F> 

(<E>)  |  <N> 

⑷ 

<N> 

<N><D> | <D> 

(5) 

<D>  — 

0  |  1  |  … |  9 

图  11-22 

表 本 算术 表达式 的无二 义文法 

例如， 第 (1) 行的 3 个产 生式定 义了表 达式要 么是较 小的表 达式后 面跟上 + 或- 以及另 一项， 
要么 是单独 的项。 如果将 这些概 念融为 一体， 那么该 产生式 是说， 每个表 达式都 是项后 面跟上 0 
个 或更多 由一个 + 或-以 及一项 构成的 配对。 同样， 第 (2) 行表 示项是 由较小 的项后 面跟上 *或/ 以 
及因式 构成的 。也就 是说， 项是由 因式后 面跟上 0 个或 更多由 一个* 或 / 加上一 个因式 组成的 配对。 
第 (3) 行说的 是因式 或者是 数字， 或 者是由 括号包 围的表 达式。 而第 (4) 行和第 (5) 行 则像之 前所做 
的那样 定义了 数字和 数码。 

之所 以在第 (1) 行和第 (2) 行 中使用 了诸如 

<E  >^< E>  +  <T  > 

这 样的产 生式， 而没有 使用看 似与之 等价的 <芯>4<1>  +  <五>， 就 是为了 强制这 些项从 
左起 分组。 因此， 我们 看到像 1-2+3 这样 的表达 式会被 正确地 分组为 （1-2 )+3。 同样， 像 1/2*3 
这 样的项 也能被 正确地 分组为 （1/2)  *3。 图 11-23 展示 了用图 11-22 中的文 法表示 表达式 1-2+3 
的 唯一分 析树。 请 注意， 1-2 必须首 先被组 合为表 达式。 如 果像图 ll-20b 中那样 先组成 2  +  3, 是 
没办 法用图 1 1  -22 所示 的 文法将 1  - 附 加到该 表达式 上的。 

表 达式、 项和 因式之 间的区 别使得 处于不 同优先 级的运 算符能 被正确 分组。 例如， 表达式 
1+2*3 对应的 分析树 只有图 11-24 所示的 那棵， 它像图 ll-21b 所示 的树那 样先组 合了子 表达式 
2*3, 而不 是像图 ll-21a 所 示的错 误的树 那样首 先组合 1+2。 

就像 之前提 到的平 衡括号 串问题 那样， 我 们没有 证明图 11-22 所示 的文法 是无二 义的。 习题 
中包含 了更多 例子， 应 该有助 于说服 读者相 信该文 法不仅 是无二 义的， 而 且为各 个表达 式给岀 
了正确 的组合 方式。 我们还 表述了 该文法 的思路 如何扩 展到更 全面的 表达式 家族。 
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<E> 


图 11-23 


图 11-24 


<E> 


<T> 


<E>  -  <T> 

<T>  <F> 

<F>  <N> 

<N>  <D> 

<D>  2 

1 


<F> 

<N> 

<D> 

3 


用图 1 1-22 中的无 二义文 法表示 表达式 1  -  2  +  3 的 分析树 


<E> 


<E>  +  <T> 


<T>  <T>  *  <F> 

<F>  <F>  <N> 

<N>  <N>  <D> 

<D>  <D>  3 

1  2 

用图 11-22 中的无 二义文 法表示 表达式 1+2*3 的 分析树 


11.5.3 习题 

(1) 用图 11-22 所示的 文法， 为 下列各 表达式 给岀唯 一的分 析树。 
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(a)  (1+2)  /3 

(b)  1*2-3 

(c)  (1+2)  *  (3  +  4) 

(2) * 图 11-22 所示文 法的表 达式有 两级优 先级， + 和 -在第 一级， 而 *和/ 在更 高的第 二级。 一般 而言， 
我 们可以 利用奸 1 个语法 分类处 理具有 尤先 级的表 达式。 修改图 11-22 中的 文法， 使其包 含乘方 
运算符 A， 它的优 先级比 *和/ 更高。 作为 提示， 大家 要定义 是操作 数或带 括号表 达式的 要素， 并重 
新 把因式 定义为 一个或 多个要 素由乘 方运算 符连接 而成。 请 注意， 乘 方的组 合是从 右起而 不是从 
左 起的， 也就 是说， 2MM 表示 的是 2M3M) ， 而不是 （2DM。 我 们该如 何确保 在要素 中是从 
右起 进行组 合的？ 

(3)  * 扩展该 无二义 表达式 文法， 允许 =、 <=等 比较运 算符， 这些 比较运 算符都 具有同 样的优 先级而 
且 是左关 联的， 它 们的优 先级在 + 和- 之下。 

(4)  扩展图 11-22 中的 表达式 文法， 使其包 含一元 减号。 请 注意， 这 一运算 符的优 先级要 比其他 运算符 
的 优先级 更高， 例如， -2*-3 就被 组合为 （-2)*  (-3)。 

(5)  扩 展习题 (3) 中 得岀的 文法， 已包 含逻辑 运算符 &&、 |  | 和！ 。其中 &&和*有 着相同 优先级 ，而 
丨 丨的优 先级与 + 相同， 而！ 的 优先级 则比一 元的- 更高。 && 和 |  | 这 两个二 元运算 符都是 从左起 
组 合的。 

(6)  * 不是每 个表达 式按照 11.2 节图 11-2 所 示的二 义性文 法都有 一棵以 上的分 析树。 给岀一 些根据 
该文法 只有唯 一分析 树的表 达式。 大家 能否给 岀一条 规则， 说明什 么时候 表达式 会具有 唯一的 
分 析树？ 

(7)  以下文 法定义 了只有 0 和 1 组成的 字符串 的集合 （不含 e  ) 。 

< 字符串  >  —  <  字符串  >  <  字符串 >  |  0  |  1 

在该文 法中， 字符串 010 有 几棵分 析树？ 

(8)  给 岀与习 题 (7) 中 文法 具有相 同语言 的 无二义 文法。 

(9)  * 文法 (11.1) 对空串 来说有 多少分 析树？ 给 岀对应 空串的 3 种不 同的分 析树。 

11.6 分析树 的构造 

文法 和正则 表达式 一样， 都可 以描述 语言， 但都 不能直 接给出 算法来 确定某 字符串 是否在 
所定 义的语 言中。 对正则 表达式 来说， 我 们在第 10 章 中已经 了解到 如何先 把正则 表达式 转换成 
非 确定自 动机， 接着 转换成 确定自 动机， 而 这一确 定自动 机就可 以直接 实现为 程序。 

对文法 来说， 也存在 多少有 些相似 的处理 过程。 一般 来说， 根 本不可 能把文 法转换 成确定 
自 动机， 在 11.7 节中我 们会讨 论一些 可以进 行这种 转换的 例子。 不过， 通 常可以 把文法 转换成 
类似自 动机的 程序， 从头至 尾读取 输入， 并呈 现该输 人字符 串是否 在该文 法的语 言中的 决策。 
这类 技术中 最重要 的就是 “LR 分析” （ LR 代表从 左至右 扫描输 入）， 但它不 在本书 要讨论 的范围 
之内。 

11.6.1 递归下 降分析 

这里要 介绍的 是一种 更加简 单但不 那么强 大的分 析技术 —— “递归 下降分 析”， 在这 种分析 
中， 文法 会被一 系列相 互递归 的函数 替代， 每个 递归函 数都对 应文法 中的一 个语法 分类。 对应 
语 法分类 <於 的函数 S 的 目标是 读人构 成语言 Z(<5>) 中 字符串 的字符 序列， 并返回 指向该 字符串 
分析树 根节点 的 指针。 

产 生式的 右部可 以 看作找 到左部 的语法 分类中 的字符 串所必 须满足 的一系 列目标 —— 终结 
符 和语法 分类。 例如， 考 虑表示 平衡括 号串的 无二义 文法， 我 们在图 11-25 中将其 重现。 
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(1)  <B>  e 

(2)  <B>  —  (  <B>  )  <B> 


图 11-25 表 示平衡 括号串 的文法 

产生式 (2) 表述了 弄清平 衡括号 串是否 依次满 足以下 4 个条件 的一种 方法。 

(1)  找到字 符（； 

(2)  然 后找到 平衡括 号串； 

(3)  然后 找到字 符）； 

(4)  最 后找到 另一个 平衡括 号串。 

一般 而言， 如果 发现某 终结符 是下一 个输入 符号， 终 结符的 目标就 得到满 足了， 但 如果下 
一个输 人符号 是其他 内容， 这一目 标就不 会被满 足了。 要弄清 右部中 的语法 分类是 否得到 满足， 
可 以调 用对应 该语法 分类的 函数。 

根据 文法构 建分析 树的安 排如图 1 1-26 所示。 假设 要确定 某终结 符序列 X,X2 …义 是 否为语 
法分类 <於 中的字 符串， 而且如 果是还 要给岀 它的分 析树。 然后我 们在输 入文件 中放入 
XxX2---Xn  ENDM, 其中 ENDM 是一个 不属于 终结符 的特殊 符号。 ®ENDM 叫作 端记号 （ endmarker  ), 
它的 作用是 表示待 检查的 整个字 符串已 经被读 入了。 例如， 在 C 语言程 序中， 通常 会使用 EOF 
或 EOS 字符 作为端 记号。 


Xi 

x2  . 

•  Xn  ENDM 

1 

调用 S 

图 11-26 初始 化在输 人中发 现<於 的程序 

输 入游标 （ input  cursor  ) 标记了 要被处 理的终 结符， 也 就是当 前的终 结符。 如果输 入是字 
符串， 那么游 标可以 是指向 字符的 指针。 分析程 序首先 要调用 对用语 法分类 <於 的函数 而且 
输入 游标是 在输入 的开头 位置。 

每 当处理 产生式 右部， 并在 产生式 中遇到 终结符 a 的时 候， 就 要在输 入游标 指示的 位置查 
找相 匹配的 终结符 a。 如 果找到 a ， 就 把输入 游标移 至输入 中的下 一个终 结符。 如 果当前 的终结 
符是 a 之外的 内容， 就 是匹配 失败， 就 不能为 该输人 字符串 给出分 析树。 

另一 方面， 如果 处理产 生式右 部并遇 到了语 法分类 <7>， 就要 调用与 <7> 对应 的函数 r。 
如果 r  “失 败”， 那 么整个 分析也 失败， 而该输 入就被 视为不 在待分 析的语 言中。 如果 r 成功， 
它就会 “ 消灭” 某一 输入， 把输入 游标向 前移动 对应该 输入的 0 个 或更多 位置。 从 r 被调 用时 
的位 置直到 r 离开游 标之前 的位置 都要被 销毁。 r 还会 返回一 棵树， 就是 与该被 销毁输 入对应 
的分 析树。 

当 我们处 理完产 生式右 部中的 各个符 号后， 就要为 该产生 式表示 的那部 分输入 生成分 析树。 
要完 成这一 工作， 就 需要创 建一个 新的根 节点， 并以该 产生式 的左部 作为其 标号。 该根 节点的 
子 节点是 成功调 用与右 部中语 法分类 对应的 函数所 返回的 树的根 节点， 而 且要为 右部中 的每个 
终结 符创建 相应的 叶子 节点。 


① 在实际 用于编 程语言 的编译 器中， 整个 输人可 能不是 一次性 放人一 个文件 中的， 而 是由每 次检查 源程序 中一个 
字符的 “ 词法分 析器” 这 种预处 理器一 次找到 一个终 结符。 
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11.6.2 用于平 衡括号 串的递 归下降 分析器 

现在 来考虑 一个扩 展过的 例子， 看看如 何为图 1 1-25 所 示文法 中的语 法分类 <5> 设计 递归函 
数 5。 在 某个输 人位置 被调用 的函数 5, 会 销毁从 那个位 置开始 的某个 平衡括 号串， 并把 输人光 
标 留在紧 临该平 衡括号 串之后 的那个 位置。 

难点 在于， 要满 足确定 <5> 这一 目标， 到底是 使用可 以立即 成功的 产生式 ⑴， <B>  —  e ， 
还 是使用 产生式 (2)， 也就是 <5>— (<5>)<5>。 而我 们要遵 循的策 略是， 只要下 一个终 结符为 (， 
就使用 产生式 (2)， 只 要下一 个终结 符是) 或是端 记号， 就使用 产生式 (1)。 

函数 5 如图 ll-27b 所示， 在它之 前的图 ll-27a 中是一 些重要 的辅助 要素， 这些 元素包 括以下 
几点。 

(1)  常量 FAILED 被定义 为函数 5 没 能在输 入中找 到平衡 括号串 时的返 回值。 FAILED 的值与 
NULL 相同。 后者的 值也表 示一棵 空树。 不过， 如果 5 成功 的话， 它返 回的分 析树不 会为空 ，所 
以 FAILED 的这一 定义是 不可能 有二义 性的。 

(2)  类型 NODE 和 TREE 的定义 Q 节点 是由标 号字段 （字 符）， 以 及指向 最左子 节点和 右兄弟 
节点的 指针组 成的。 标号 ‘B’ 表示 标号为 S 的节 点， ‘ （‘和 ’）’ 分 别表示 标号为 左括号 和右括 号的节 
点， 而 ‘e’ 则表示 标号为 e 的 节点。 与 5.3 节 中最左 子节点 右兄弟 节点结 构不同 的是， 这里 为指向 
节点 的指针 选择的 类型是 TREE 而非 pNODE， 因 为这里 的这些 指针多 用来作 为树的 表示。 

(3)  下面要 描述的 3 个辅 助函数 和函数 5 的原型 声明。 

(4)  两 个全局 变量。 第一 个是 parseTree, 存放 着由对 5 的 第一次 调用返 回的分 析树。 第二 
个是 nextTerminal ， 它 是输入 游标， 指向输 入终结 符串中 的当前 位置。 请 注意， 
nextTerminal 具有 全局性 是很重 要的， 这样当 5 的一次 调用返 回时， 输 入游标 所在的 位置对 
执 行这次 调用的 5 的副 本而言 就是已 知的。 

(5)  main 函数。 在 这一简 单的演 示中， main 将 nextTerminal 置为指 向特定 测试串 （）（ ） 
开头的 位置， 而 且调用 5 的 解雇被 放置在 par seTree 中。 

(6)  3 个 辅助函 数可以 创建树 节点， 而且， 如 果需要 的话， 可以 组合子 树以形 成更大 的树。 
它们 分别是 

(a)  函 数创建 的节点 没有子 节点， 也就 是说， 它 创建的 是叶子 节点， 而且用 
符号 x 作为 该叶 子节点 的标号 。返回 的是由 这 一个节 点组成 的树。 

(b)  makeNode\(x,  0 函数仓 键的节 点具有 一个子 节点。 新 节点的 标号为 X， 而且其 子节点 
是树? 的根 节点。 返 回的是 根节点 为所创 建节点 的树。 请 注意， makeNodel 要利用 
makeNodeO 创建根 节点， 然后 让树? 的 根节点 成为所 创建根 节点的 最左子 节点。 我们 
假设 所有的 最左子 节点和 右兄弟 节点指 针一开 始都是 NULL, 而 且它们 就是， 因为它 
们 都是由 makeNodeO 创 建的， 该函 数显然 将它们 置为了 NULL。 因此， makeNodel 
并不一 定要把 NULL 存储 到树艰 节点的 rightsibling 字 段中， 不过 这样做 是明智 
的安全 之举。 

⑻ 函数 /m 汝 eAWe4(x,  匕 ?3,  (4) 创 建的节 点具有 4 个子 节点。 该 节点的 标号是 x, 而其子 

节点按 照从左 到右的 次序分 别是树 6 、 ？2、 和? 4 的根 节点， 返回 的是用 所创建 节点作 
为 根节点 的树。 请 注意， makeNode4 要利用 makeNodel 创建 一 个 新的根 节点， 并将匕 
附加 到该节 点上， 然后 用右兄 弟节点 指针把 其余的 树串联 起来。 
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#define  FAILED  NULL 

typedef  struct  NODE  *TREE ; 
struct  NODE  { 
char  label; 

TREE  lef tmostChild,  right Sibling; 

>；  -  一 

TREE  makeNodeO(char  x) ; 

TREE  makeNodel (char  x,  TREE  t) ; 

TREE  makeNode4(char  x，  TREE  tl ,  TREE  t2 ,  TREE  t3,  TREE  t4) ; 

TREE  B() ; 

TREE  parseTree;  /* 存 放分析 的结果 */ 

char  *nextTerminal;  /* 输入 字符串 中的当 前位置 */ 

void  main() 

{ 

next  Terminal  =  "()()";  /* 在实际 应用中 ，终 结符 串是从 输入 读取的 V 
parseTree  =  B() ; 

} 

TREE  makeNodeO(char  x) 

{ 

TREE  root ; 

root  =  (TREE)  malloc (sizeof (struct  NODE)); 

root->label  =  x; 

root->lef tmostChild  =  NULL; 

root->rightSibling  =  NULL; 

return  root ; 

} 

TREE  makeNodel (char  x,  TREE  t) 

{ 

TREE  root ; 

root  =  makeNodeO(x) ; 
root->lef tmostChild  =  t; 
return  root ; 

} 

TREE  makeNode4(char  x，  TREE  tl，  TREE  t2 ,  TREE  t3,  TREE  t4) 

{ 

TREE  root ; 

root  =  makeNodel (x,  tl) ; 
t 1 - >right Sibling  =  t2 ; 
t2->rightSibling  =  t3; 
t3->rightSibling  =  t4; 
return  root ; 

> 


图 ll-27(a) 递归下 降分析 器的辅 助函数 
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TREE  B() 

{ 

TREE  f irstB,  secondB ; 

ifOnextTerminal  ==  ’（’）/*  遵循 产生式 2  */  { 
nextTerminal++ ; 
f irstB  =  B() ; 

if(firstB  !=  FAILED  &&  *nextTerminal  ==  { 

nextTerminal++ ; 
secondB  =  B() ; 
if (secondB  ==  FAILED) 
return  FAILED ; 
else 

return  makeNode4( ?B J , 
makeNodeO( ’ （ ’ ） ， 
f irstB, 

makeNodeO( ; ) ’ ） ， 
secondB) ; 

} 

else/* 对 B 的第一 次调用 失败了  */ 

return  FAILED ; 

> 

else  /* 遵循 产生式 1  */ 

return  makeNodel ( ;B? ,  makeNodeO ◦  e ’ ） ） ； 

} 


HI  11 -27(b) 为平 衡括号 串构建 分析树 的函数 

现 在可以 一行行 考虑图 ll-27b 所 示的程 序了。 第 (1) 行是 两个局 部变量 f irstB 和 secondB 
的 声明， 这 两个局 部变量 的作用 是存放 在尝试 产生式 (2) 的情 况下对 5 的两 次调用 所返回 的分析 
树。 第 (2) 行会测 试输人 的下一 个终结 符是否 为（。 如 果是， 我们 就将在 产生式 (2) 的右部 中查找 
实例， 如果 不是， 就要 假设使 用的是 产生式 (1)， 而且 e 就是 该平 衡串。 

在第 (3) 行， 我们 要递增 nextTerminal ， 因为当 前输人 （已 经匹 配上了 产生式 (2) 右 部中的 
(。 我 们现在 已经让 输入游 标处在 恰当的 位置， 它对 应的对 5 的调 用将为 产生式 (2) 右部中 的第一 
个 <5> 找到平 衡串。 对 B 的这 次调用 是在第 (4) 行发 生的， 而该 调用返 回的树 被存储 在变量 
f irstB 中， 它随后 会被装 配成与 当前对 5 的 调用对 应的分 析树。 

第 (5) 行要 检查是 否仍然 有能力 找到平 衡串。 也就 是说， 首先要 确定第 (4) 行对 5 的调 用没有 
失败。 然 后测试 nextTerminal 当前的 值是否 为）。 回想 一下， 当 B 返回 时， nextTerminal 
指向 要用来 形成平 衡串的 下一个 输入终 结符。 如果 要匹配 产生式 (2) 的 右部， 而 且已经 匹配了 （与 
第一个 <5>, 那么就 必须匹 配〉， 这就 解释了 该测试 的第二 部分。 只要 该测试 的任何 一部分 失败， 
当前对 5 的 调用就 会在第 (11) 行失败 。 

若通 过了第 (5) 行的 测试， 则在第 (6) 和第 (7) 行要 把输人 游标移 过刚发 现的右 括号， 并 再次调 
用 5， 以匹配 产生式 (2) 中的最 后一个 <5>。 返 回的树 被临时 存储在 secondB 中。 

如果第 (7) 行对 5 的调用 失败， secondB 的值 就会是 FAILED。 第 (8) 行会检 测这种 情况， 而 
且 当前对 5 的调 用也会 失败。 

第 (10) 行代表 的是成 功找到 平衡括 号串的 情况。 我们要 返回由 makeNoded 构建 的树。 该 
树具有 标号为 ‘B’ 的根节 点以及 4 个 孩子。 第 一个是 标号为 （的 叶子 节点， 它是由 makeNodeO 
构 造的。 第 二个是 存储在 f irstB 中 的树， 它是 通过第 (4) 行对 5 的 调用产 生的分 析树。 第三个 


\ — /  \ — /.  \ — /  \ — /  \ — /  \ — /  \ — /  \ — /  \ — /  \ — / 

1  23456789  o 
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是标 号为〉 的叶子 节点， 第 四个则 是由第 (7) 行对 5 的 第二次 调用返 回的分 析树， 它 存储在 
secondB*。 

只 有在第 (5) 行的 测试失 败时， 才会 使用第 (11) 行。 第 (12) 行处 理的是 第⑴行 的初始 测试没 
能在第 一个字 符的位 置找到 （的 情况。 在 这种情 况下， 假设 产生式 (1) 是正 确的。 该产生 式的右 
部为 £：， 因 此我们 没有销 毁任何 输人， 但 返回了 一个由 makeNodel 创建的 节点， 其 标号为 5 而 
且 有一个 标号为 e 的子 节点。 

♦ 示例 1 1 .9 

假设 在输入 中有终 结符串 0()  ENDMo 这里的 ENDM 代 表字符 ' \0  ' , 它是在 C 语言中 用来标 
记字 符串结 尾的。 图 ll-27a 中 main 函数对 5 的调用 确定了 （是 当前的 输人， 而且第 (2) 行的 测试会 
成功。 因此， nextTerminal 在第 (3) 行会 前移， 而且第 (4) 行 会进行 对 5 的 第二次 调用， 表 示为图 
11-28 中的 “调用 2”。 

(  )  (  )  ENDM 


调用 4  调用 5 


图 1 1-28 在处 理输人 ()()  ENDM 时进行 的调用 

在调用 2 中， 第 (2) 行的 测试 失败， 因 此在第 (12) 行会 返回图 ll-29a 所示 的树。 现在回 到调用 
1 , 其 中在第 (5) 行时， nextTerminal 指向的 是）， 而且图 ll-29a 的树在 f irstB 中。 因此 ，第 
(5) 行的测 试会 成功。 我 们在第 (6) 行前移 nextTerminal, 并在第 (7) 行调用 5。 这是图 11-28 中所 
示的 “调用 3”。 

在调用 3 中， 我 们在第 (2) 行 成功， 在第 (3) 行前移 nextTerminal ， 并在第 (4) 行调 用凡该 
调用 就是图 11-28 中的 “调用 4”。 就 和调用 2 —样， 调用 4 也 会在第 (2) 行的 测试 失败， 并在第 (12) 
行返 回一棵 类似图 ll-29a 的树 但有所 不同。 

我们现 在回到 了调用 3， 其中 nextTerminal 仍然指 向）， f  irstB  (是 此次对 5 的调 用的局 
部 变量） 存放 着一棵 类似图 ll-29a 这样 的树， 而且 有着第 (5) 行的 控制。 这次 测试会 成功， 而且 
我们 会在第 (6) 行前移 nextTerminal ， 所以它 现在指 向的是 ENDM。 我们在 第⑺行 进行对 5 的第 
五次 调用。 该调 用在第 (2) 行的 测试会 失败， 并在第 (12) 行 返回图 ll-29a 的 另一个 副本。 这 棵树称 
为对 应调用 3 的 secondB 的值， 并且第 (8) 行的测 试也失 败了。 因此， 在调用 3 的第 (10) 行， 我们 
要构 建如图 1 1  -29b 所示 的树。 

至此， 调用 3 在第 (8) 行成功 地返回 到调用 1， 这 时调用 1 的 secondB 存 放着图 11-2% 中 的树。 
就像 在调用 3 中那样 ，第 (8) 行的 测试会 失败， 而且我 们在第 (10) 行要构 建一棵 有着新 根节点 的树， 
其第 二个孩 子是图 ll-29a 所示 树的一 个副本 （ 这棵树 被存放 在调用 1 的 firstB 中）， 而且 它的第 
四个孩 子是图 ll-29b 中 的树。 得到 的树被 main 函数 放置在 parseTree 中， 它的样 子如图 ll-29c 
所示。 
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B  B 


㈦ 

图 11-29 由对 B 的递归 调用构 建的树 


11.6.3 递 归下降 分析器 的构建 

虽然 不能针 对所有 文法， 但可 以将图 11-27 中用 到的技 术扩展 到适用 于很多 文法。 关 键要求 
是， •各语 法分类 <5>， 如果存 在不止 一个以 <於 为左 部的产 生式， 那么通 过查看 当前唯 一的终 
结符 （通常 被称为 前瞻符 号）， 就可以 确定那 个需要 得到尝 试的以 <於 为左 部的产 生式。 例如， 
在图 11-27 中， 我们 的决策 就是， 只要前 瞻符号 是（， 就选取 右部为 (<5>)<5> 第二个 产生式 ，而 
要是 前瞻符 号为） 或 ENDM, 就选定 右部为 e 的第 一个表 达式。 

一般 来说， 我 们不可 能弄清 对某定 义文法 而言是 否存在 总能做 出正确 决定的 算法。 对图 
11-27 来说， 我 们声明 所陈述 的策略 是行得 通的， 但 并未对 此加以 证明。 不过， 如 果拥有 自己相 
信行 得通的 决策， 那么 就可以 按照如 下方式 为各语 法分类 <5> 设计 函数又 

(1) 检 查前瞻 符号， 并决定 要尝试 哪个产 生式。 假 设被选 中的产 生式右 部为不 

⑺对卜 1、 2、 …、 《， 为式 进行以 下操作 。 

(a)  如果 名是终 结符， 检查前 瞻符号 是否为 名。 如 果是， 则前 移输入 游标。 如 果不是 ，那 
么 这次对 ^ 的调 用就失 败了。 

(b)  如果名 是语法 分类， 比 方说是 <7>， 就 调用对 应该语 法分类 的函数 r。 如果 r 以失 败状 
态 返回， 就 说明对 ^ 的调 用失 败了。 如果 r 成功 返回， 就 把返回 的树存 储起来 以待随 
后 使用。 

如果在 考虑完 所有的 名之后 都没有 失败， 就 创建各 孩子按 次序分 别对应 x2、一x,, 的新 
节点， 以 组成一 棵要返 回的分 析树。 如果式 是终 结符， 那么式 •的 孩子就 是新创 建的以 名为 标号的 
叶子 节点。 如果名 是语法 分类， 那么 名的子 节点就 是在与 X 对应 的函 数完成 调用时 返回的 树的根 
节点。 图 11-29 就 是这种 树构建 过程的 示例。 

如果语 法分类 <5*> 表示所 含字符 串有待 识别和 分析的 语言， 就 要在第 一个输 入的终 结符处 
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放 置输人 游标， 开 始分析 过程。 如果输 入在语 言1(<5|>) 中， 对函数 ^ 的调用 就会使 得对应 该输入 
的 分析树 被构建 起来， 而如 果不在 的话， 对 ^ 的调 用就 会返回 失败。 

11.6.4  习题 

(1)  给岀针 对以下 输人， 图 11-27 所示 的程序 所执行 的调用 序列， 其中每 种情况 下最后 都跟着 端记号 
ENDM 符号。 

(a)  ( () ) 

(b)  (()()) 

(c)  () ) ( 

(2)  考虑以 下表示 数字的 文法。 

〈数字 >  — 〈数码 > 〈数字 >  丨 e 
〈数码 >  —  0  111-19 

设 计对应 该文法 的递归 下降分 析器， 也就 是说， 编 写两个 函数， 其中 一个对 应< 数字 >, 另 一个对 
应 〈数码 >。 大 家可以 遵照图 11-27 中的 格式， 并假 设存在 makeNodel 这种根 节点具 有指定 数目子 
节点 的树。 

(3)  ** 假设 把习题 (2) 中对应 < 数字 > 的生成 式写为 
< 数字 >  — < 数码 >  < 数字 >  I  < 数码 > 

或 

< 数字 >  — < 数字 >  < 数码 >  丨 e 

是否还 能够设 计递归 下降分 析器？ 为 什么？ 


图 11-30 对应 表结构 的文法 

(4)*图11-30 所示的 文法定 义了非 空表， 表的元 素是由 逗号分 隔并由 括号包 围的。 元素 可以是 原子或 
表结 构体。 在 这里， <£> 代表 元素， <Z> 表示 表， 而 <7> 则对应 “尾 部”， 也 就是， 要么 是闭合 的）， 
要么是 由逗号 和以） 结尾 的元素 构成的 配对。 为图 11-30 中的 文法编 写递归 下降分 析器。 

11.7 表 驱动分 析算法 

正如 我们在 6.7 节 中看到 过的， 递 归函数 调用通 常是用 活动记 录栈实 现的。 因 为递归 下降分 
析 器中的 函数完 成的工 作非常 具体， 所以可 以用一 个检查 表并操 作栈的 函 数来代 替这些 函数。 

要 记得， 对应语 法分类 <5*> 的函数 馆 先要决 定使用 哪个产 生式， 然 后经过 一系列 步骤， 每 
个步骤 都对应 着所选 产生式 右部中 的一个 符号。 因此， 可以 维持一 个大致 与活动 记录栈 对应的 
文法符 号栈， 而符 号和语 法分类 都被放 置在该 栈中。 当语 法分类 <& 位于栈 顶时， 首先 要确定 
正 确的产 生式。 然 后用所 选产生 式的右 部替换 <5^， 其中右 部的左 端位于 栈顶。 如果是 终结符 
位于 栈顶， 就要 确定它 是否与 当前输 入符号 匹配。 如 果是， 我 们就将 其弹岀 栈并前 移输入 游标。 

要从 直觉上 了解这 种安排 为何起 作用， 先假 设递归 下降分 析器刚 调用过 对应语 法分类 <5*> 
的 函数又 而且 选定的 产生式 右部为 a<5><C>。 那么 对应劝 勺这 一活动 记录会 在以下 4 个时候 


( <E>  <T> 
, <E>  <T> 

) 

<L> 

原子 


>  >  >  >  > 
L  T T 五五 
<  <  <  <  < 


\)/  \)/  \)/  \ — /  \1/ 
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处 于活动 状态。 

(1)  在检验 a 是否 在输入 中时； 

(2)  在 进行对 S 的调 用时； 

(3)  在该 调用返 回而且 C 被调 用时； 

(4)  在对 C 的调 用返 回而且 51  完成调 用时。 

如果 我们在 表驱动 分析器 中直接 用右部 的符号 （本 例中是 a<5><C>  ) 替换 <於， 那么该 
活动记 录栈会 在控制 权返回 对应递 归下降 分析器 中幼勺 活动时 的输入 位置曝 光这些 符号。 

(1)  第 一次曝 光的是 a， 而 且我们 会检测 a 是 否在输 入中， 就 像函数 S 所做的 那样。 

(2)  第 二次， 紧 接第一 次之后 发生， ^ 会调用 5, 而 <5> 会位于 栈顶， 这 会造成 相同的 行为。 

(3)  第 三次， 幻周用 C， 不过 这里是 <0 在 栈顶， 而且 完成的 是相同 的工作 。 

(4)  第 四次， ^ 返回， 而且我 们不会 发现更 多替代 <5*>的 符号。 因此， 活 动记录 栈中此 点以下 
的符 号之前 存放在 <5>中 ， 但 现在被 暴露在 外了。 类 似地， 在 ^ 的活 动记录 以下的 活动记 录在递 
归下 降分析 器中会 得到控 制权。 

11.7.1 分析表 

如果 不想写 一系列 的递归 函数， 也可 以构建 分析表 （ parsing  table  )， 它的每 一 行都 对应着 
语法 分类， 每一 列对应 着可能 的前瞻 符号。 在 表示语 法分类 <於的 那一 行中， 对应 前瞻符 号对勺 
项是 前瞻符 号为邪 寸展开  <於 必须用 到的以  <5*> 为左 部的产 生式的 编号。 

分 析表中 的某些 项可能 为空。 假设 需要展 开的语 法分类 <於， 而 且前瞻 符号为 X, 但 我们发 
现表示 <5*> 的那行 中对应 X 的那 一项 为空， 就说 明分析 已经失 败了。 这种情 况下， 可以确 定该输 
人不 在此语 言中。 

♦ 示例 11.10 

图 11-31 表示了 对应图 11-25 所示 平衡括 号串无 二义文 法的分 析表。 该分 析表相 当简单 ，因 
为其中 只有一 个语法 分类。 该表所 表示的 策略与 11.6 节 中的示 例所采 用的策 略是相 同的。 如果 
前瞻 符号是 （， 那么展 开时用 到的是 产生式 (2)， 也就是 <5>4(<6>)<B>, 否则展 开时就 要借助 
产生式 (1)， 或者说 <5>—e。 我们很 快就会 看到这 样的分 析表是 如何使 用的。 


(  )  ENDM 

<5>  2  I  r~ 


图 11-31 对 应平衡 括号串 文法的 分析表 


♦ 示例 11.11 

图 11-32 所示 的是另 一个分 析表， 它对 应着图 11-33 所示的 文法， 该文 法是图 11-6 所示 语句文 
法 的一个 变种。 


w  c  {  }  s  ; 

ENDM 

<s> 

<T> 

1  2  3 

4  4  5  4 

图 11-32 对应图 11-33 所示 文法的 分析表 


<S>  w  c<S> 
<S>  {  <T> 

<C.S^>  — ^  s  • 


(4)  <T>  —  <S><T> 

(5)  <T>^> 

图 11-33 可进 行递归 下降分 析的、 表示简 单语句 的文法 

我 们在图 11-33 中用 到的方 法是， 记住程 序块是 由左花 括号后 面跟上 0 条或更 多语句 以及右 
花 括号组 成的。 我 们把这 0 条或 更多语 句以及 右花括 号称为 “ 尾部” （tail), 并用语 法分类 <7> 
表 示它。 图 11-33 中的 产生式 (2) 说明， 语句可 以由左 花括号 后面加 上尾部 构成。 产生式 (4) 和产 
生式 (5) 则表 示尾部 要么是 语句后 面跟上 尾部， 要么直 接就是 个右花 括号。 

决定用 产生式 (4) 还是 产生式 (5) 展开  <7>  是件 非常简 单的事 。只有 在右花 括号是 当前输 人时, 
产生式 (5) 才行 得通， 而 产生式 (4) 只在 当前输 入可以 开始语 句时才 有效。 在 我们的 简单文 法中， 
开 始语句 的终结 符只有 w、 ■[和 s。 因此， 在图 11-32 中可以 看到， 在 对应语 法分类 <7>的那 行中， 
为这 3 个前 瞻符号 选择了 产生式 (4)， 而为前 瞻符号 } 选择了 产生式 (5)。 对其 他的前 瞻符号 而言， 
我 们不可 能用它 们作为 尾部的 开头， 所 以就要 在对应 <7>的 那行中 把对应 其他前 瞻符号 的位置 
留空。 

同样， 语 法分类 <於 的决 定也很 简单。 如 果前瞻 符号为 w， 那 么只有 产生式 (1) 能起 作用。 如果 
前瞻 符号为 {， 产生式 (2) 就 是唯一 可行的 选择。 而对前 瞻符号 s 来说， 只有 产生式 (3) 是可 行的。 对 
其他前 瞻符号 来说， 相应 的输入 是没法 形成语 句的。 这些 结论解 释了图 11-32 中对 应< 於的那 一行。 

11.7.2 表驱 动分析 器的工 作原理 

所有 的分析 表都可 以被实 质上的 同一程 序用作 数据。 这 一驱动 器程序 具有同 时存放 着终结 
符 和文法 分类的 文法符 号栈。 该栈 可以被 视作剩 下的输 入必须 满足的 目标， 这些 目标一 定是按 
照 从栈顶 到栈底 的次序 得到满 足的。 

(1)  通过 确定某 终结符 是输入 的前瞻 符号， 可以 满足终 结符的 目标。 也就 是说， 只要 终结符 
X 在栈顶 位置， 就要 检查前 瞻符号 是否为 X， 如 果是， 就从栈 中弹出 X， 并 读取要 成为新 前瞻符 
号的 下一个 输入终 结符。 

(2)  通过 查询分 析表中 行对应 <於且 列对 应前 瞻符号 的项， 可 以满足 语法分 类目标 <5*>。 

(a)  如果相 应的项 为空， 那么就 不能为 该输入 得出分 析树， 这样驱 动器程 序就失 败了。 

(b)  如果 相应的 项含有 产生式 /， 就要把 <於从栈 顶位置 弹岀， 并把 产生式 右部中 的各个 
符 号压入 栈中。 右 部中的 符号是 按照从 右至左 的顺序 被压人 栈的， 这样 一来， 右部 
的第一 个符号 最终就 会处在 栈顶的 位置， 而第二 个符号 就紧邻 其下， 以此 类推。 作 
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图 11-33 中的 文法之 所以具 有这种 形式， 是 为了可 以用递 归下降 （或 者等 价地， 用这 里描述 
的表驱 动分析 算法） 进行 分析。 要知道 为什么 这种形 式是必 要的， 首 先考虑 一下图 11-6 所示文 
法 中对应 <Z> 的产 生式。 

<L>  — <L> 〈別  e 

如 果当前 的输入 是开始 语句的 s 这样 的终 结符， 那 么可知 <Z> —定 至少由 右部为 <Z>  <5*>第 
一 个生成 式展开 一次。 不过， 如果 不检查 接下来 的输入 并弄清 语句列 中共有 多少条 语句， 就没 
法确定 要进行 多少次 展开。 
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为 特例， 如果 右部为 e， 就 只要把 <5>从 栈 中弹出 即可。 

假设 想确定 字符串 S 是否在 /^:於) 中。 在 这种情 况下， 要用输 入中的 S  ENDM 字符串 ® 启动驱 
动器， 并 读取第 一个终 结符作 为前瞻 符号。 活动 记录栈 一开始 只由语 法分类 <於 组成。 

♦ 示例 11.12 

我们 对输入 {W  c  s  ;  s  ;  }ENDM 使用图 11-32 中的分 析表。 图 11-34 展示了 表驱动 分析器 
所执行 的处理 步骤。 表中所 示栈的 内容是 按照栈 顶内容 位于最 左侧的 方式排 列的， 这样 一来， 
当我们 把栈顶 位置的 语法分 类替换 为它某 一产生 式的右 部时， 该右 部就会 岀现在 栈顶的 位置， 
其 中的符 号都是 按照正 常次序 排列。 


栈 

前 瞻符号 

剩 余输入 

1) 

<5> 

{ 

wcs ; s ; }ENDM 

2) 

{<7> 

{ 

wcs; s; }ENDM 

3) 

<T> 

w 

cs ; s ; }ENDM 

4) 

<SxT> 

w 

cs ; s ; }ENDM 

5) 

wc  <S  ><T  > 

w 

cs; s; }ENDM 

6) 

c  <  S  ><T  > 

c 

s ; s ; } ENDM 

7) 

<SxT> 

s 

; s ; } ENDM 

8) 

s;<  T  > 

s 

; s ; } ENDM 

9) 

■,<T> 

; 

s；  }  ENDM 

10) 

<T> 

s 

; }ENDM 

11) 

<SxT> 

s 

; }ENDM 

12) 

s;<  T  > 

s 

; }ENDM 

13) 

,<T> 

; 

}ENDM 

14) 

<T> 

} 

ENDM 

15) 

} 

} 

ENDM 

16) 

e 

ENDM 

e 

图 1 1-34 使用图 1 1-32 所 示表格 的表驱 动分析 器的处 理步骤 

图 11-34 中的第 (1) 行展示 了初始 情况。 因为 要测试 字符串 {wcs;S;  } 是否 属于语 法分类 <☆， 
所以一 开始活 动记录 栈中只 存放着 <5>。 给定 字符串 的第一 个符号 { 是前瞻 符号， 而且字 符串的 
其余部 分跟上 ENDM 就构成 了剩下 的 输入。 

如果 查看图 11-32 中 对应语 法分类 <於 和前 瞻符号 { 的项， 就 知道必 须按照 产生式 (2) 展开 
<S>0 该产 生式的 右部是 {<7>， 而且 在我们 到达第 (2) 行时， 可以看 到这两 个文法 符号已 经替换 
了 栈顶的  <5>。 

现在栈 顶位置 是终结 符{。 因此要 将其与 前瞻符 号加以 比较。 因为栈 顶和前 瞻符号 相符， 
所以 我们要 弹出栈 顶内容 ，并 将输入 游标前 移到下 一个输 人符号 w, 这 样它就 成了新 的前瞻 符号。 
这些 改变反 映在第 (3) 行中。 


① 有时候 端记号 ENDM 符号 也是必 要的， 它可 以作为 告知我 们已经 到达输 入末端 的前瞻 符号， 其他时 候它只 是用来 
捕捉 错误。 例如， 在图 11-31 中 ENDM 是必 要的， 因为 我们在 平衡括 号串之 后总有 更多的 括号， 但在图 11-32 中它 
不是必 要的， 对应 ENDM 的那列 中没有 任何项 就证明 了 一切。 
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接 下来， <7> 位于栈 顶而且 w 是前瞻 符号， 查阅图 11-32 可知恰 当的行 动是用 产生式 (4) 展开。 
因此将 <7>从 栈中 弹岀， 并压入 <於<7>， 如第 (4) 行中 所见。 同样， 现 在处于 栈顶的 <於 会被产 
生式 (1) 的右部 替代， 因为这 是由图 11-32 中对应 <S> 的行与 对应前 瞻符号 w 的列决 定的， 这一改 
变反 映在第 (5) 行中。 在第 (5) 行和第 (6) 行 之后， 栈 顶的终 结符会 与当前 的前瞻 符号相 比较， 因为 
每一 对都能 匹配， 所以 它们被 弹出， 而且输 入游标 前移。 

这里要 遵照第 (7) 到第 (16) 行， 核 实每一 步都是 根据分 析表可 以采取 的合适 行为。 因 为在各 
终 结符到 达栈顶 时会与 当时的 当前前 瞻符号 匹配， 所以我 们不会 失败。 因此， 字符串 {wcs;S;} 
在语 法分类 < 於中， 也就 是说， 它是 语句。 

11.7.3 分析树 的构建 

上面描 述的算 法可以 分辨给 定字符 串是否 在给定 语法分 类中， 不过它 并不会 生成分 析树。 
不过， 对该算 法进行 简单的 修改， 它就 能在输 人字符 串在初 始化活 动记录 栈所用 的语法 分类中 
时 给出相 应的分 析树。 11.6 节 中描述 过的递 归下降 分析器 是从下 向上构 建分析 树的， 也就 是说， 
从叶 子节点 开始， 并 在函数 调用返 回时逐 渐将其 组合成 更大的 子树。 

而对 表驱动 分析器 来说， 自上而 下地构 建分析 树要更 方便。 也就 是说， 我们从 根节点 开始， 
并且随 着我们 不断选 择用来 展开栈 顶位置 语法分 类的产 生式， 就同 时为构 建中的 分析树 的节点 
创 建了子 节点， 这些 子节点 对应着 所选产 生式右 部中的 符号。 构 建分析 树的规 则如下 所述。 

(1)  一 开始， 活 动记录 栈中只 含有某 个语法 分类， 比 方说是 <於。 我们 将分析 树初始 化为只 
含一个 标号为  <於 的节点 。栈中 的 应着 正在构 建的分 析树中 的一个 节点。 

(2)  —般情 况下， 如果 活动记 录栈含 有符号 4尤2 … X,,， 而且 不在 栈顶， 那么 当前分 析树的 
叶子节 点标号 从左到 右排列 可以组 合成以 … 为 后缀的 字符串 ^ 分析 树的后 《个 叶子节 
点对应 着栈中 的 符号， 所 以每个 栈符号 不都与 标号为 名的叶 子节点 对应。 

(3)  假设语 法分类 0 立于 栈顶， 而且 选择用 产生式 少 — I；。 … （ 的右 部替代 令。 我 们会找 
到分析 树中对 应这一 O 的叶 子节点 （ 它是以 语法分 类为标 号的最 左子节 点）， 并给它 《 个从 左至右 
标号 分别为 f  4 ••-  I 的子 节点。 而在 右部为 e 的特 例中， 我们会 创建一 个标 号为 e 的子 节点。 

♦ 示例 11.13 

我们 按照图 11-34 中的步 骤进行 处理， 并 在这一 过程中 构建分 析树。 首先， 在第 (1) 行， 活动 
记录 栈只由 <5> 组成， 而且对 应的树 是如图 ll-35a 所示 的单个 节点。 在第 (2) 行要用 产生式 <5>  — 
{<7> 展开 <5*>， 因此 就为图 ll-35a 中的叶 子节点 赋予了 两个子 节点， 从左至 右分别 以{和<7>为 
标号。 对应第 (2) 行的 树如图 ll-35b 所示。 

<5>  <S>  <S> 


⑻ 


图 1 1  -3  5 构建 分析树 的前 几步 


(c) 
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第 (3) 行不会 对分析 树带来 改变， 因为我 们匹配 的是终 结符， 不会展 开语法 分类。 不 过在第 
(4) 行要将 <7> 展开为 <於  <7>, 所以 要为图 ll-35b 中 标号为 <7>的叶 子节点 添加两 个以这 些符号 
为标 号的子 节点， 如图 11-35C 所示。 然 后在第 (5) 行 <5>被 展开为 wc<5>， 这 会让图 ll-35c 中标号 
为 <於的 叶子节 点得到 3 个子 节点。 大 家可以 自行继 续这一 过程。 最终 的分析 树如图 11-36 所示。 


<S> 


s  ;  s  ;  } 

图 11-36 对应图 1 1-34 中分 析过程 的完整 分析树 


11.7.4 让文 法变得 可分析 

正如我 们已经 看到的 ，很 多文 法需要 进行一 些修改 才能用 我们在 11.6 和 11.7 这 两节中 了解的 
递归下 降或表 驱动方 法进行 分析。 尽管无 法保证 任何文 法都能 修改为 可用这 两种方 法分析 ，但 
有一些 值得了 解的小 窍门， 它们 可以让 这种使 文法变 得可分 析的修 改工作 变得更 高效。 

第一个 窍门是 消除左 递归。 我 们已经 在示例 11. 11 中指 出过， 产生式 <Z>4<Z><5>|£： 是不 
能 用这些 方法分 析的， 因 为没办 法弄清 应用第 一个产 生式的 次数。 一般 来说， 只 要对应 某语法 
分类<义> 的产 生式的 右部以 <X> 自 身 开头， 我 们就不 清楚为 了展开 <X> 要应 用该产 生式多 少次。 
这种 情况就 叫作左 递归。 不过， 通 常可以 重新排 列有问 题产生 式的右 部中的 符号， 使得 <1>排 
在 靠后的 位置。 这一 步骤就 叫作左 递归的 消除。 

♦ 示例 1 1.14 

在 之前讨 论过 的示例 1 1 . 1 1 中， 我 们看到 <Z> 表示 0 个 或更多 <5^。 因此可 以通 过调换 <5>和 
</> 的位置 消除左 递归， 这样一 来就有 

<L>^  <S>  <L>\e 

再举个 例子， 考 虑一下 表示数 字的产 生式： 

<数字>  —  < 数字 >  <数码>  |  < 数码 > 

给定 数码作 为前瞻 符号， 就不知 道要展 开< 数字 > 需要 使用第 一个产 生式多 少次。 不过 ，我 
们看 到数字 是一个 或多个 数码， 这 样就可 以重新 排列第 一个产 生式的 右部， 得到 
〈数字 >  —>■  <数码>  < 数字 >  |  <数码> 

这一 对产生 式就消 除了左 递归。 

不过， 示例 11. 14 中的 产生式 还是不 能用我 们提过 的方法 分析。 要 让它们 变得可 分析， 就需 
要用 到第二 个窍门 —— 提取 左因子 （left factoring)。 当 对应语 法分类 <1>的 两个产 生式具 有以相 
同符号 C 开 头的右 部时， 只 要前瞻 符号是 来自共 有符号 C 的 ，我 们就没 法弄清 该使用 哪个产 生式。 
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要 为这些 产生式 提取左 因子， 就要 创建表 示这些 产生式 “尾 部”， 即表示 右部中 C 之后 的部分 
的语 法分类 <7>。 然后把 这两个 对应 的 产生式 替换为 d  —  (：<7>和 两个以 <7>为 左部的 两个产 
生式。 这两个 产生式 的右部 是之前 所说的 “尾 部”， 也就 是对应 <尤> 的 两个产 生式中 C 之后的 内容。 

♦ 示例 11.15 

考虑一 下示例 1 1 . 14 中设计 的对应  < 数字  >  的产 生式： 

< 数字 >  — >•  <数码>  < 数字 >  |  <数码> 

这两个 产生式 是以相 同符号 < 数码 >开 始的。 因此， 当 前瞻符 号为数 码时， 我 们没法 分辨要 
使用 哪个产 生式。 不过， 如果 提取左 因子， 得到 
< 数字 >  — •  <数码>  <  尾部〉 

< 尾部  >  —  <  数字 >|  e 

就可 以服从 这些决 定了。 在 这里， 对应 < 尾部 > 的这 两个产 生式让 我们选 择对应 < 数字 >的 第一个 
产 生式的 尾部， 也就是 < 数字 > 本身， 或者第 二个对 应< 数字 > 的产 生式的 尾部， S 卩 e。 

现在， 当必 须扩展 < 数字 >， 并以数 码作为 前瞻符 号时， 就会用 <数码>< 尾部 >替换< 数字 >， 
匹配该 数码， 然后可 以根据 数码后 面跟着 的内容 选择如 何展开 尾部。 也就 是说， 如果后 面跟着 
另一个 数码， 那么就 用< 尾部 > 的第一 个选择 展开， 而如果 后面跟 着的内 容不是 数码， 则 可知已 
经看 到整个 数字， 并用 e 来替换 < 尾部 >。 

11.7.5 习题 

(1)  为 下列输 人字符 串模拟 使用图 11-32 所 示分析 表的表 驱动分 析器。 

⑷ { s ;  } 

(b)  wc  { s  ；  s  ；  } 

(C)  {  {  S  ；  S  ；  }  S  ；  } 

(d)  { s  ；  s } 

(2)  对习题 (1) 中取 得成功 的那些 分析， 给 岀分析 过程中 构建分 析树的 过程。 

(3)  利用图 11-31 中的分 析表， 对 11. 6 节习题 (1) 中的 输人串 模拟表 驱动分 析器。 

(4)  给 岀习题 (3) 的分析 过程中 分析树 的构建 情况。 

(5) * 如 下文法 
(^)<语句>—土£  (条 件） 

(b) < 语句 'if  (条 件） < 语句 > 

(c)  <语 句  >  — 简 单语句 

表示 C 语言中 的选择 语句。 它 是没法 用递归 下降分 析器和 表驱动 分析器 进行分 析的， 因为 如果有 
前 瞻符号 if, 就没办 法确定 要使用 前两个 产生式 中的哪 一个。 为 该文法 提取左 因子， 使它 可以用 
11.6 节和本 节介绍 的算法 分析。 提示： 在提 取左因 子时， 就得到 了具有 两个产 生式的 新语法 分类。 
一个的 右部为 e， 而另一 个的右 部则以 else 开头。 显然， 当 eise 作为 前瞻符 号时， 要选 择第二 
个产 生式。 其他 前瞻符 号都不 能让我 们选择 这一产 生式。 不过， 如果 看看有 哪些前 瞻符号 让我们 
用 右部为 e 的产 生式 展开， 就 会发现 这些前 瞻符号 中也有 else。 不过， 也可 以强行 规定， 在前瞻 
符号为 else 时决不 展开为 e 。 该选择 对应着 “else 匹配 之前未 匹配的 then” 这一 规则， 因此这 
是 “正 确的” 选择。 你可 能想找 到一个 在前瞻 符号为 else 且 展开为 e 时还能 让分析 器完成 分析的 
例子。 不过你 会 发现， 在任意 一次这 样的分 析中， 构建的 分析树 总会为 else 匹配 “错 误的”  then。 

(6)  ** 如 下文法 

〈结构 体 >  — ■  struct  {< 字段 列〉 

< 字段列 >— 类型 字 段名；  < 字段列 > 
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〈字 段列 >— e 

需 要一些 修改才 可以用 本节和 11.6 节介 绍的方 法进行 分析。 重写该 文法， 使 其可由 递归下 降和表 
驱动 的方法 分析， 并 构建相 应的分 析表。 

11.8 文法 与正则 表达式 

文法和 正则表 达式都 是用于 描述语 言的表 示法。 我 们在第 10 章 中已经 看到， 正则表 达式表 
示法与 确定自 动 机和非 确定自 动 机表示 法是等 价的， 因为 可由这 3 种 表示法 描述的 语言集 合是相 
同的。 文法 是否有 可能是 另一种 与我们 已经见 过的这 些表示 法都等 价的表 示法？ 

答案是 “不可 能”， 因 为文法 要比我 们在第 10 章中 介绍的 正则表 达式之 类的表 示法更 强大。 
这里要 分两步 展现文 法的表 现力。 首先， 我们 将证实 每种能 用正则 表达式 描述的 语言也 都能用 
文法来 描述。 接着 我们会 给出一 种可以 由文法 描述， 但不能 用正则 表达式 描述的 语言。 

11.8.1 用 文法模 拟正则 表达式 

这种 模拟背 后的直 觉思路 就是， 正 则表达 式中的 3 种 运算符 （取 并、 串接和 闭包） 分 别可以 
用一个 或两个 产生式 “模 拟”。 正式 地讲， 可 以通过 对正则 表达式 i? 中 岀现的 运算符 的数量 n 进 
行完全 归纳， 证 明如下 命题。 

命题。 对每 个正则 表达式 尺 来说， 都存 在某一 文法， 满足 对文法 中的语 法分类 <於 而言 ，有 
L(<S>)  =  L<R> 

也 就是说 ，由 正 则表达 式表示 的语言 也是语 法分类 "^於的 语言。 

依据。 依据 情况是 《  =  0, 也就 是正则 表达式 尺 中未 出现运 算符的 情况。 i? 要么 是单个 符号， 
比方说 X， 要么是 e 或 0。 我们 创建一 个新 的语 法分类 <5*>。 在 =  x 的第 一种情 况下， 还 要创建 
产生式 <5*>—x。 因此， L(<S>)={^}, 而且 是相 同的单 字符串 语言。 如果 i? 是 £：， 同样可 
以为 <5>创建 产生式 ， 而如果 i?=0， 则根本 不用为 <5> 创建产 生式。 这样当 i? 为 e 时， 
1(<5*>) 是 {  e  } ; 而 当穴是 0 时， 是 0 。 

归纳。 假定归 纳假设 对具有 不超过 《个 运算符 的正则 表达式 成立。 设 尺 是其 中出现 《+1 个运 
算符的 正则表 达式。 总共有 3 种 情况， 具 体取决 于构建 所应用 的最后 一个运 算符是 取并、 串接 
还是 闭包。 

(1)尺=及| 牟。 因 为这里 有一个 运算符 （即 取并 运算符 |)  g 先不属 于及也 不属于 尺2 ， 所以可 
知及 和尾中 运算符 的个数 都不可 能超过 I 因此， 归纳假 设适用 于及和 尺2, 而且 我们可 以找到 
具有语 法分类 <私> 的文法 q ， 以及 具有语 法分类 ％> 的文法 G2 ， 分 别满足 
L(<S2>)=L(R2)。 为了 避免岀 现两个 文法相 互融合 的巧合 岀现， 我 们可以 假设， 在构 造新文 法的过 
程中， 所创 建的语 法分类 的名称 一直都 不会在 另一个 文法中 出现。 这样 一来， （^和^中 就不会 
有相同 的语法 分类。 创建一 个新 的语 法分类 <5>， 它既未 岀现在 <^和(72 中， 也没 有岀现 在 为其他 
正则 表达式 构建的 其他文 法中。 除了对 应^和巧 的两 个产生 式外， 我们 还要添 加两个 产生式 

<S>^<SX>\<S2> 

那么 <於 的语 言只由 <&>*<&>& 语言中 所有的 字符串 组成。 这两 个语言 分别是 1(A) 和 z(i?2)， 
所以有 

L(<S>)  =  L(R2)  =  L(R) 

这正 是我们 想要的 结果。 


512  第 11 章 模 式的递 归描述 


(2)  R  =  R'R2 。就 像情况 (1) 那样 ，假设 存在文 法(^ 和(?2 ，它 们分别 具有语 法分类 

满足 和 然 后创建 新的语 法分类 <5>， 并在 (^和^产 生式的 基础之 
上添加 产生式 

<S>4  <Si>  <s2> 

然 后就有  = ^(<^1>)  1(<&>)。 

(3)  R  =  R; 。 设 (^是 具有语 法分类 <&> 的文 法， 满足 创 建新语 法分类 <5>， 
并添 加两个 产生式 

<5*>  —  <^!>  <S>\e 

因为 <於可 生成由 0 个 或更多 <&> 构成 的串， 所以有 =  (Z(<5!>))*0 

♦ 示例 11.16 

考 虑正则 表达式 a | be*。 首 先要为 该表达 式中的 3 个 符号创 建语法 分类。 ® 因此， 就 得到产 

生式 

<A>  ― ^  a 
<B>  —  b 
<C>  ^ ^  c 

根 据正则 表达式 的组合 规则， 我们 的表达 式会被 分组为 a  |  (b(c)*)。 因此， 首 先要创 建对应 c* 
的 文法。 根据之 前所述 的规则 (3)， 我 们要在 产生式 <0—c  (就是 对 应正则 表达式 c 的 文法） 的 
基础之 上添加 产生式 

<D>  — <0  <D>\e 

这 里的语 法分类 <i> 是随 意选 择的， 可以是 除了已 经被使 用过的 <2>、 <5>和<0 之外的 任何语 
法 分类。 要 注意到 

L{<D>)  =  (Z(<0))*=c* 

现在 我们需 要对应 be* 的 文法。 可以 取只由 产生式 <5>^b 组成的 对应 b 的 文法， 以及 对应 c* 的 
文法 ，即 

<C>  ~ ^  c 

<D>  —  <0  <D>\e 

我们 要创建 新的语 法分类 <五> ， 并添加 产生式 

<£>  —  <B>  <D> 

之 所以使 用该产 生式， 是因 为之前 提到的 对应串 接情况 的规则 (2)。 它的右 部包含 <5>和<£»>， 
因为 它们分 别是对 应正则 表达式 b 和 c* 的语法 分类。 因 此对应 be* 的 文法是 

<E>  ~^<B>  <D> 


<D>  —  <C>  <D>|e 
<B>  —  b 


<C>  ~ ^  c 

而且语 法分类  <五>  的语言 就是所 需的。 

最后， 要 得到对 应整个 正则表 达式的 文法， 就 要用到 对应取 并运算 的规则 (1)。 这要 引人新 
的语 法分类 <尺>， 以及 产生式 


① 如果 这些符 号出现 两次或 多次， 并不需 要为符 号的每 次出现 创建新 的语法 分类， 只 需要为 每种符 号创建 一个语 
法分 类就足 够了。 
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<F>^  <A>\<E> 

请 注意， 语 法分类 <^> 对应子 表达式 a， 而 <£> 则对 应子 表达式 be*。 得 到的文 法就是 

<F>^  <A>\<E> 

<£>  —  <B>  <D> 


<D>  —  <0  <D>\e 
<A>^  a 

— b 


<O^C 

而语 法分类 的语言 就是给 定正则 表达式 所表示 的 语言。 

11.8.2 有文 法但没 有正则 表达式 的语言 

现在要 证实文 法并非 只有正 则表达 式那么 强大。 我们要 通过展 示一种 只有文 法但没 有正则 
表 达式的 语言来 做到这 一点。 我 们将这 一语言 称为昃 它是 由一个 或更多 0 后面跟 上相等 数量的 
1 组 成的字 符串的 集合。 也 就是说 

E  =  {01， 0011， 000111， •••} 

要描述 E 中的字 符串， 有一种 基于指 数的实 用表示 方法。 设 /( 其中 s 是字 符串而 《是 整数） 代表 
ss---s  (  n^s  ), 也就 是说， s 与它 自身串 接《次。 那么 

E  二 {O1!1^2!2^3!3, ...} 

或 者使用 集合形 成法表 示就是 

E  =  {0,?1>^1  } 

首先， 我们 要相信 可以用 文法描 述五。 以下 文法就 可以完 成这一 工作。 

{\)<S>^0<S>\ 

大家 可以使 用依据 产生式 (2) 说明 01 在 ^(〈於) 中。 在第二 轮中， 我们可 以使用 产生式 (1)， 用 
01 替换右 部中的 <☆， 这 样就为 ZCcM 得到了 0212。 再一 次应用 产生式 ⑴， 用 0212 替换右 部中的 
<S>， 就说明 0313 也在 Z(<5*>) 中， 等等。 一般 来说， 要 求使用 产生式 (2) —次， 并随后 使用产 
生式 (1)«-1 次。 因为我 们用这 两个产 生式不 能产生 别的字 符串， 所以 可知五 

11.8.3 证明 E 不能用 任何正 则表达 式定义 

现在 要证明 五不能 用正则 表达式 描述。 这里证 明五不 能用任 何确定 有限自 动机 描述要 更容易 
些。 这 一证明 过程也 能证明 五没有 正则表 达式， 因为 如果五 是正则 表达式 i? 的 语言， 我们 就可以 
利用 10.8 节中的 技巧将 转换 成等价 的确定 有限自 动机。 该 确定有 限自动 机就定 义了语 言五。 

因此， 假设五 是某确 定有限 自动乳 4 的 语言。 那么 i 就会 有若干 数量的 状态， 比 方说是 m 个状 
态。 考虑 一下当 ^ 接 收输人 000 …时 会发生 什么。 我们 这里把 该未知 自动乳 4 的初 始状 态叫作 匈。 
^ 一 定有针 对输入 0 的、 从状态 私 到某 个我们 称之为 & 的状 态的 转换。 从 该状态 岀发， 另一个 0 
可以 把^带 到称为 私 的 状态， 等等。 一般 地说， 在读入 / 个 0 后就处 在状态 & 中， 如图 11-37 所示 。① 


①大 家应该 记住， 我们 其实并 不知道 J 的状 态的 名称， 而是 只知道 ^ 具有 m 个状态 （其中 m 为某整 数)。 因此 ，& 、…、 
〜 并不是 J 中状态 的真正 名称， 而只 是我们 为了方 便称呼 而为这 些状态 赋予的 名称。 这并不 像看起 来这么 奇怪。 
打个 比方， 我们一 般会创 建数组 & 用 0 到 m 作为 索引， 并在 小_] 中存储 某值， 该 值可以 是自动 tfU 的状 态名称 。然 
后可以 在程序 中用外 /] 代指该 状态， 而不 是用它 本身的 名称。 
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图 11-37 为 自动机 ^输送 0 


鸽 巢原理 

证 明语言 五没 有确定 有限自 动 机的过 程要用 到称作 鹤巢原 理（ pigeonhole  principle  )的 技巧， 
我们通 常将该 原理陈 述为： 

“如果 w+1 只 鹤子飞 进 w 个 鹤巢， 那么 至少有 一 个巢 中 有两只 鹤子 。” 

在 这种情 况下， 鸽巢就 相当于 自动机 J 的 状态， 而鸽 子就是 J 在看到 0 个、 1 个、 2 个直至 w 
个 0 后 所处的 m 个状态 。 

请 注意， 为了应 用鸽巢 原理， 这里的 m 必须是 有限的 。 7.11 节 中讲过 的无限 酒店的 故事告 
诉 我们， 对立的 命题对 无限集 来说是 可以成 立的。 在 那个例 子中， 我们看 到一家 有着无 数个房 
间 （对应 鸽巢） 的 酒店， 以及数 量比房 间数多 1 的客人 （对 应鸽 子）， 不过 还是有 可能为 每个客 
人分 配一个 房间， 而不用 把两个 客人安 排到同 一房 间中。 


现 在假设 ^ 刚好有 m 个状 态， 而且 &、 ^、 …、 & 总共有 m+1 个 状态。 因此不 可能让 这些状 
态全都 不同。 在 0 到 m 的范 围中， 肯定存 在两个 不同的 整数详 q/， 使 得&和 \ 其实 为相同 状态。 
如 果假设 i 是 i 和 j 之间的 较小者 ，那 么图 11-37 的 路径之 中一定 至少存 在一条 环路， 如图 11-38 所示。 
在 实际应 用中， 可能存 在比图 11-38 中更多 的环路 和状态 重复。 还要 注意， / 可以是 0, 在 这种情 
况下， 图 11-38 所示的 从&到 \ 的路径 起始就 是一个 节点。 同样， \ 可以是 &， 这种情 况下从 \ 
到 的 路径就 只是个 节点。 


图 11-38 暗示了 自动乳 4 不能 “ 记住” 自 己已经 看到过 多少个 0。 如果处 在状态 &中， 它可 
能已 经刚好 看到了 m 个 0, 这样 的话， 如 果我们 从状态 m 开始， 并九 4 提 供刚好 m 个 1， 那么 J 一定 
会到 达接受 状态， 如图 11-39 所示。 

不过， 假设 我们为 J 提供了 一个有 m+H 个 0 的串。 看看图 11-38, 就会 发现外 0 可 以将』 从& 
带到与 \ 相同的 & 。 我们还 会看到 m-/h0 会把^ 从状态 &带到 因此， 个 0 就可 以把^ 
从状态 &带到 & ， 如图 11-39 中 靠上方 的路径 那样。 
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Qrn-j+i 


Om 

图 11-39 自动机 ^不能 区分它 到底是 看到了  m 个 0 还是 m-/+l 个 0 

因此， 个 0 后 面跟上 m 个 1 也可以 把^从 &带 到接受 状态。 换句 话说， 字符串 om〃+;r 
也在 4 的语 言中。 但因 为/比 / 大， 所以该 串中的 1 要比 0 多， 这 样就不 在语言 五中。 因此 可得岀 J 
的语 言并不 是五的 结论， 正如 我们所 假设的 那样。 

因为 一开始 只假设 了五具 有确定 有限自 动机， 而 且最终 推岀了 矛盾， 所以可 推断岀 假设不 
成立， 也就 是说， 五没 有确定 有限自 动机。 因此， 丑 也没有 正则表 达式。 

语言 « 多 1 丨只是 无数种 可由文 法指定 但不能 用正则 表达式 表示的 语言中 的一个 例子。 
本 节习题 中还会 给岀另 外一些 例子。 

11.8.4  习题 

(1) 给岀定 义以下 正则表 达式语 言的文 法。 

(a)  (a|b)*a 

(b)  a*|b*|  (ab)* 

(c)  a*b*c* 


文法不 能定义 的语言 

有人 可能会 问文法 是否为 描述语 言的最 强大表 示法， 答 案是： “ 绝不可 能！” 我们可 以证明 一些简 
单 语言并 不具有 文法， 尽管 证明技 巧并不 在本书 要介绍 的范围 之内。 这种的 语言的 一个例 子就是 由相同 
数量的 0、 1 和 2 按 次序构 成的串 形成的 集合， 也就是 

{012,  001122,  000111222,  •••} 

要举一 个更强 大的语 言描述 方法的 例子， 可以考 虑一下 C 语言 本身。 对任意 文法， 以 及它的 任一语 
法分类 <於 来说， 都可 以写出 C 语言 程序 以确定 字符串 是否在 尤(<於) 中。 此外， 确定 字符串 是否在 上述语 
言中 的 C 语言 程序 也不难 编写。 

但 还是有 C 语言程 序不能 定义的 语言。 “不 可判定 问题” 这一高 雅理论 就可用 来证明 某些问 题是不 
能 用任何 计算机 程序解 决的。 我 们将在 14.10 节中 简要 讨论不 可判定 性以及 一些不 可判定 问题的 例子。 


(2)  *证 明平衡 括号串 集合不 能由任 何正则 表达式 定义。 提示： 这一 证明过 程与上 述针对 语言五 的证明 
过程 类似。 假设平 衡括号 串集合 具有含 m 个状态 的确定 有限自 动机。 为 该自动 机提供 《个（， 然后 
检查它 进人的 状态。 证明该 自动机 可能被 “ 愚弄” 去 接受某 个不平 衡的括 号串。 

(3)  * 证明 由形如 0"10"的 字符串 （也就 是两列 等长的 0 由一个 1 分开） 组 成的语 言是不 可以用 正则表 
达式定 义的。 

(4) * 大家有 时候可 能会看 到一些 谬误的 断言， 声 称像本 节中五 这样的 语言可 以用正 则表达 式描述 。推 


516  第 11 章 模 式的递 归描述 


理过 程是， 对各个 《 而言， 0T 就是定 义只含 O'T1 这 一个字 符串的 语言的 正则表 达式。 因 此下列 
正则表 达式就 是描述 五的。 

01|0212|0313| 

这一 论证过 程错在 何处？ 

(5)  * 另一 个和语 言有关 的谬误 论证声 称五具 有以下 有限自 动机。 该 自动机 具有一 个状态 a ， 它 既是起 
始 状态又 是接受 状态。 存在从 a 到它自 身的针 对符号 0 和 1 的 转换。 那 么显然 字符串 O'V 能 把自动 
机从状 态^带 到状态 《， 这样该 字符串 就被接 受了。 为什 么这一 论证过 程没有 证明五 是某有 限自动 
机的 语言？ 

(6)  ** 证明 下列语 言不能 用正则 表达式 定义。 

(a)  是由 a 和 M 且成 的字 符串， 是与 w 排列次 序相反 的字符 串} 

(b)  {  0(  |  / 是完全 平方数 } 

(c)  {0'1/是质数} 

其中 哪些语 言可以 用文法 定义？ 

11.9 小结 

在阅读 过本章 之后， 大家 应该注 意以下 要点。 

□ (上 下文 无关） 文法如 何定义 语言。 

□ 如何 构建可 以表示 字符串 文法结 构的分 析树。 

□ 二义文 法有何 歧义， 为 什么编 程语言 的规范 中不需 要二义 文法。 

□ 可用 来为某 些类型 的文法 构建分 析树的 递归下 降分析 技术。 

□ 用于实 现递归 下降分 析器的 表驱动 方式。 

□ 为什么 文法与 正则表 达式或 有限自 动机相 比是更 强大的 描述语 言的表 示法。 
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第 12 章 

命 题逻辑 


本 章要介 绍命题 逻辑， 是种 最初目 的是为 了模型 推理的 代数， 其历史 要追溯 到亚里 士多德 
的 时代。 在更 近的时 代里， 这种代 数和很 多代数 一样， 是实用 的设计 工具。 例如， 第 13 章就展 
示了命 题逻辑 是如何 应用到 计算机 电路设 计中的 。逻 辑的 第三个 用途是 作为编 程语言 和系统 （比 
如 Prolog 语言） 的数据 模型。 很多通 过计算 机进行 推理的 系统， 包括定 理证明 程序、 程 序验证 
程序， 以及人 工智能 领域的 应用， 都是 用基于 逻辑的 语言实 现的。 这些语 言一般 都利用 了“谓 
词逻 辑”， 它扩充 了命题 逻辑的 功能， 是更 为强大 的逻辑 形式。 我们 将在第 14 章中介 绍谓词 逻辑。 

12.1 本章主 要内容 

12.2 节 从直观 上说明 了命题 逻辑是 什么， 以及 它为何 实用。 12.3 节介绍 了用于 逻辑表 达式的 
代数， 它 使用布 尔值操 作数， 并 且用到 对布尔 （真 / 假） 值进行 运算的 AND、 OR 和 NOT 这 样的逻 
辑运 算符。 这 种代数 通常称 为布尔 代数， 是 以首先 将逻辑 表达为 代数的 逻辑学 家乔治 •布 尔的 
名字命 名的。 然 后我们 还会了 解以下 内容。 

□ 真值 表是表 7K 表达式 逻辑意 义的实 用方式 （ 12.4 节)。 

□ 可以 把真值 表转换 为对应 相同逻 辑函数 的逻辑 表达式 （ 12.5 节)。 

□ 卡诺图 是一种 用于简 化逻辑 表达式 的实用 制表技 巧 （ 12.6 节)。 

□存 在数量 丰富的 “重言 式”， 或可 用于逻 辑表达 式的代 数法则 （12.7 节和 12.8 节)。 

□ 命 题逻辑 的某些 重言式 让我们 可以对 “反证 法”或 “ 逆转命 题法” 这样的 常用证 明技巧 
加以解 释 （ 12.9 节)。 

□命 题逻 辑也是 经得起 “演绎 ”的。 所谓 演绎， 就 是写出 一行行 内容， 其中 每一行 要么是 
给 定的， 要么是 能由之 前的某 些行来 验证的 （12.10 节)。 大 多数人 在学习 平面几 何时都 
了 解过这 种证明 模式。 

□名为 “ 分解”  ( resolution  ) 的 强大技 巧有助 于我们 迅速作 岀证明 （ 12.11 节）。 

12.2 什 么是命 题逻辑 

山姆编 写了如 下含有 if 语句的 c 语言 程序。 

if  (a  <  b  II  (a  >=  b  &&  c  ==  d)) …  (12. 1) 

莎莉 指出， 该 if 语 句中的 条件表 达式可 以写为 如下更 简单的 形式。 
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if  (a  <  b  II  c  ==  d) …  (12.2) 

莎莉 是如何 得出这 一 '结 论的？ 

她可 能是按 照如下 方式推 理的。 假设 a  <  b。 那 么参与 OR 运算 的第一 个条件 在这两 条语句 
中都 为真， 因此 (12.1) 和 (12.2) 这两条 if 语 句中的 then 部分 都会被 接受。 

现在假 设3  <  b 不 成立。 在 这种情 况下， 只有 当参与 OR 运算的 第二个 条件为 真的情 况下才 
会接受 then 部分。 对语句 (12.1) 我们 要询问 

a  >=  b  &&  c  ==  d 

是否 为真。 因为 a  <  b 为假， 所 以现在 a  >=  b 显然 为真。 因此， 在 (12.1) 中， 只有在 c  ==  d 
为真时 才接受 then 部分。 而 对语句 (12.2)， 显 然也是 只有在 c  ==  d 为真时 才接受 then 部分 。因 
此不管 a、 b、 c、 d 的值 分别是 什么， 要么是 if 语 句都能 带来接 下来的 then 部分， 要么 是都不 
能。 所以我 们可以 判断岀 莎莉是 对的， 简化过 的条件 表达式 可以在 不改变 程序功 能的情 况下替 
换第 一个表 达式。 

命题逻 辑是让 可以对 逻辑表 达式的 真假进 行推理 的数学 模型。 我 们将在 12.3 节中给 岀逻辑 
表达式 的正式 定义， 不过现 在可以 把逻辑 表达式 视作对 (12.1) 和 (12.2) 这样的 条件表 达式的 简化， 
这种 简化抽 象掉了  C 语言逻 辑运算 符求值 次序的 限制。 

命题 和真值 

请 注意， 上述针 对两个 if 语句的 推理并 不取决 于&  <  b 或相似 的条件 “意 味着” 什么 。我 
们需要 知道的 只有条 件3  <  b 和 a  >=  b 是互 补的， 也就 是说， 当一 个条件 为真时 另一个 条件就 
为假， 反之 亦然。 因 此可以 用符号 P 替换语 句3  <  b， 用 表达式 NOT;? 替代 a  >=  b， 并 用符号 ^ 
替换 c  ==  d。 这里 的符号 叫称 为命题 变量， 因 为它们 可以代 表任何 “命 题”， 也就是 任何可 
以具有 某一真 值 （ 真 或假） 的语句 。 

逻辑表 达式可 以包含 AND、 OR 和 NOT 这样的 逻辑运 算符。 当逻 辑表达 式中逻 辑运算 符操作 
数 的值已 知时， 表达 式的值 就可以 通过下 面这样 的规则 确定。 

(1)  当且仅 当户和 7 都为 真时， 户 AND  g 为真， 否则它 为假。 

(2)  当 p 为真， q 为真, 或两 者都为 真时， J?ORq 为真， 否则它 为假。 

(3)  如果户 为假， 则 NOT；? 为真， 如果 p 为真， 则它 为假。 

NOT 运 算符与 C 语言运 算符! 具 有相同 含义。 运算符 AND 和 OR 分别 类似于 C 语言的 运算符 && 
和 |  |， 但存 在技术 差异。 不过， 只有在 C 语言表 达式具 有副作 用时， 这一细 节才很 重要。 因为 
逻辑 表达式 的求值 过程中 是没有 “ 副作用 ”的， 所以 可以把 AND 当作 C 语言 运算符 && 的同 义词， 
把 OR 当作 |  | 的同 义词。 

例如， 在 (12.1) 式中 的条件 可以写 为逻辑 表达式 

p  OR  ((NOT  p)  AND  q) 

而 (12_2) 式可以 写为; ?  OR 和 我们对 (12.1) 和 (12.2) 这两个 if 语句的 推理证 明了如 下一般 性命题 

p  OR((NOT p)  AND  q)  =  {p  OR  q)  (12.3) 

其中 ^ 意味着 “等 价于” 或“与 …… 具 有相同 的布尔 值”。 也就 是说， 不管 为命题 变量; 
指定什 么样的 真值， = 的左边 跟右边 要么都 为真， 要么都 为假。 我们发 现对上 面的等 价性而 
言， 当 ^ 为真 或当 7 为真 时就都 为真， 而如果 叫都 为假则 为假。 因此， 我们 得到了 有效的 
等价。 
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因为 叫可以 是任何 命题， 所以可 以利用 (12.3) 式简化 很多不 同的表 达式。 例如， 可以 设户为 


a  ==  b+1  &&  c  <  d 

而 g 为 a  ==  c  I  I  b  ==  c。 在 这种情 况下， （12_3) 的左边 就成了 

(a  ==  b+1  &&  c  <  d)  II 

( ! (a  ==  b+1  &&  c  <  d)  &&  (a  ==  c  II  b  ==  c)) 


请 注意， 我们为 叫的值 加上了 括号， 以 确保得 到的表 达式组 合正确 
(12.3) 式告 诉我们 (12.4) 式可以 简化为 (12.3) 式的 右边， 也就是 


(12.4) 


(a  ==  b+1  &&  c  <  d)  I  I  (a  ==  c  I  I  b  ==  c) 

再举个 例子， 设 p 是命题 “ 天气晴 朗”， 而 g 是命题 “乔 伊带着 伞”， 那么 (12.3) 的左边 就成了 
“天气 晴朗， 否则不 是晴天 但乔伊 带着伞 。” 

而右边 也表示 同样的 事情， 就是 
“天气 晴朗， 否则乔 伊带着 伞。” 


命题逻 辑不能 做什么 

命题逻 辑是一 种实用 的推理 工具， 但它是 有局限 性的， 因为它 不能洞 悉命题 内部并 利用命 
题间的 关系。 比如， 莎莉 写出了  if 语句 

if  (a  <  b  &&  a  <  c  &&  b  <  c) . . . 

然 后山姆 指出只 要写成 

if  (a  <  b  &&  b  <  c) . . . 

就足 够了。 如果设 /?、 g 和 r 分别代 表命题 （a  <  b) 、 (a  <  c) 和 （b  <  c), 这样 看起来 山姆所 
说 的就是 

ip  AND  q  AND  r)  =  (p  AND  r) 

不过 这一等 价性并 不总是 存在。 例如， 假设 和 r 为真， 而 g 为假。 那么 右边就 为真， 而 左边却 
为假。 

山姆的 简化结 果是正 确的， 但 这里并 不是利 用命题 逻辑得 到的。 大家 可能会 回想起 7.10 节 
中介绍 的< 是一种 具有传 递性的 关系。 也就 是说， 只要 p 和 r 都为 真， 也就是 a  <  b 和 b  <  c 都 
成立， 那 么就有 g 为真 ，即 a  <  c 成立。 

第 14 章将介 绍一种 叫作谓 词逻辑 的更为 强大的 模型， 它 允许我 们为命 题附加 参数。 这种特 
权让 我们可 以利用 < 这样的 运算符 的特殊 属性。 对我们 来说， 可以 把谓词 视作第 7 章和第 8 章的 
集 合论中 关系的 名称。 例如， 我们可 以创建 谓词# 表示 运算符 <， 并将 户、 g 和 r 分别 写为吨 /,句、 
lt(a  ,  c) 和 lt(b  ,  c)。 那么， 根 据表示 /? 属性 的合适 法则， 比如传 递性， 就可 以得到 
(lt(a，b)  AND  lt{a,c)  AND  lt(b,c))  =  (lt(a,b)  AND  lt(b,c)) 

其实， 上 式对任 何满足 传递律 的谓词 /? 都是成 立的， 而不仅 是对谓 词< 成立。 


12.3 逻辑 表达式 

正如 12.2 节中提 到的， 逻 辑表达 式可以 按照以 下方式 递归地 定义。 

依据。 命 题变量 以及逻 辑常量 TRUE 和 FALSE 都是 逻辑表 达式， 这 些都是 原子操 作数。 
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归纳。 如果 E 和 F 是逻 辑表 达式， 那么 

⑻五 AND  F。 如果辟 者卩为 TRUE, 则该 表达式 的值为 TRUE， 否则为 FALSE。 

(b)  E  OR  F0 如 果五为 TRUE、 F 为 TRUE 或两者 者卩为 TRUE, 则该 表达式 的值为 TRUE ， 如果 
财口 F 都为 FALSE, 则该 表达式 的值为 FALSE。 

(C)  NOT 五。 若方为 FALSE, 则该 表达式 的值为 TRUE ， 若方为 TRUE 则 其值为 FALSE。 

也就 是说， 逻辑表 达式可 以用二 元中缀 表达式 AND 和 OR， 以及一 元前缀 表达式 NOT 构建。 
与其 他代数 一样， 我们需 要用括 号进行 组合， 不过在 某些情 况下， 也可以 利用运 算符的 优先级 
和 结合性 消除多 余的括 号对， 正如我 们在涉 及这些 逻辑运 算符的 C 语言条 件表达 式中所 做的那 
样。 在 12.4 节中， 将 看到岀 现在逻 辑表达 式之外 的更多 逻辑运 算符。 

♦ 示例 12.1 

下 面是一 些逻辑 表达式 的例子 

(1)  TRUE 

(2)  TRUE  OR  FALSE 

(3)  N0TJ9 

(4)  p  AND  (q  OR  r) 

(5)  (q  AND  p)  OR  (NOT  p) 

在这 些表达 式中， /?、 g 和 r 都是 命题 变量。 

12.3.1 逻辑运 算符的 优先级 

与其他 类型的 表达式 一样， 我们 也可以 为逻辑 运算符 指定优 先级， 而 且可以 利用这 样的优 
先 级消除 某些括 号对。 我 们已经 看到的 这些逻 辑运算 符的优 先次序 分别是 NOT  (最 高）， 然后是 
AND, 再是 OR  (最 低)。 虽然 我们将 会看到 AND 和 OR 具有结 合性， 怎 样分组 都无关 紧要， 但它们 
通常是 从左组 合的。 而一 元前缀 运算符 NOT 只能 从右起 分组。 

♦ 示例 12.2 

NOT  NOT p  OR  q 被 分组为 (NOT  (NOT 户))  OR  和 而 NOT pORq  AND  r 被 分组为 (NOT；?)  OR  (g  AND 
r)。 大家应 该可以 看岀， AND、 OR 和 NOT 的优 先级和 结合性 与算术 运算符 X 、 + 和一 元的- 之间存 
在相 似性。 例如， 本 例所述 的第二 个表达 式就可 以类比 为算术 表达式 -p  +  gxr， 它有着 相同的 
分组 方式， (-p)  +  (g  x  r) 。 

12.3.2 逻辑 表达式 的求值 

当 逻辑表 达式中 的所有 命题变 量都被 赋予真 值时， 表 达式本 身也得 到一个 真值。 我 们可以 
像为算 术表达 式或关 系表达 式求值 那样， 为逻辑 表达式 求值。 

这一过 程通过 对应逻 辑表达 式的表 达式树 可以得 到最好 的体现 。图 12-1 就是 对应逻 辑表达 
式 AND/OR  r)  OR  S 的表达 式树。 给定某 一真值 赋值， 也 就是， 为各变 量赋值 TRUE 或 FALSE, 
可以从 表示原 子操作 数的叶 子节点 开始。 每个 原子操 作数要 么是逻 辑常量 TRUE 或 FALSE 之一， 
要么是 根据真 值赋值 给定了 TRUE 或 FALSE 之 中某一 个值的 变量。 然后 向上处 理该表 达式树 。一 
旦某内 部节点 V 的子节 点的值 已知， 就 可以对 这些值 应用处 在节点 V 的运 算符， 并 为节点 V 产生真 
值。 根节 点的真 值就是 整个表 达式的 真值。 
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图 12-1 表 示逻辑 表达式 p 厕 D  (g  OR  r)  OR  5 ■的表 达式树 


♦ 示例 12.3 

假设要 为表达 式;?  AND  (g  OR r)  OR ^ 求值， 其中 ;?、 g、 r 勸的真 值赋值 分别是 TRUE、 FALSE、 
TRUE 和 FALSE。 我们 首先要 考虑图 12-1 中最低 的内部 节点， 也就 是表示 表达式 g  OR  r 的 内部节 
点。 因为 《为 FALSE, 而 r 为 TRUE, 所以 g  OR  r 的值为 TRUE。 

现 在来处 理带有 AND 运 算符的 节点。 它的 两个子 节点分 别对应 表达式 p 和 q  OR  r， 因 此都具 
有值 TRUE。 所 以表示 表达式 p  AND  (q  OR  r) 的该 节点的 值也是 TRUE。 

最后， 我们要 继续处 理带有 运算符 OR 的根 节点。 我们已 经得出 它的左 子节点 的值为 TRUE, 
而它的 右子节 点表示 表达式 S 根据真 值赋值 其值为 FALSE。 因为 TRUE  OR  FALSE 求出 的值是 
TRUE, 所 以整个 表达式 的值为 TRUE。 

12.3.3 布 尔函数 

任何表 达式的 “ 含义” 都可以 描述为 从其参 数的值 到整个 表达式 的值的 函数。 例如， 算术 
表达式 JCXOc  +  J；) 是接受 X 和;; （假如 JC 和: F 是实 数） 的值， 然后 返回将 两个参 数相加 并将和 乘以第 
一 个参数 所得到 的值。 这一行 为就类 似如下 c 语言 函数 的行为 

float  foo(float  X，  float  y) 

{ 

return  x*(x+y) ; 

}  ' 

在第 7 章中 我们了 解到， 函 数是定 义域和 值域有 序对的 集合。 我们还 可以把 xx(jc  +  ;;) 这样 
的 算术表 达式表 示为定 义域为 实数对 且值域 为实数 的函数 。该 函数是 由形如 +  的 
有 序对构 成的。 请 注意， 各有 序对的 第一个 组分本 身也是 有序对 (U)。 该集 合是无 限集， 它所 
含的成 员类似 ((3,4)，21) 或 ((10,12,5),225) 。 

类 似地， 逻辑表 达式的 含义就 是接受 真值赋 值作为 参数， 并返回 TRUE 或 FALSE 的函数 。这 
样的函 数就叫 作布尔 函数。 例如， 逻辑 表达式 

E：  P  AND  (p  OR  q) 

就类 似如下 c 语言 函数 

BOOLEAN  f oo (BOOLEAN  p,  BOOLEAN  q) 

{  " 
return  p  &&  (p  | |  q) ; 

}  . 

和算术 表达式 一样， 布尔 表达式 也可以 视作有 序对的 集合。 各 有序对 的第一 个组分 是一种 
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真值 赋值， 也就 是以某 指定次 序为各 命题变 量给出 真值的 元组。 而 该有序 对的第 二个组 分是表 
达 式对应 此真值 赋值时 的值。 

♦ 示例 12.4 

表达式 五=/?  AND  (/?  OR  0 可 以用由 4 个成 员组成 的函数 表示。 我 们在表 示真值 时会把 对应 p 
的值放 在对应 ^ 的值 之前。 那么 ((TRUE, FALSE), TRUE) 就是将 £ 表示 为函数 的集合 中的一 个有序 
对。 它的含 义是， 当;? 为真且 ^ 为假 时， pmD(p  OR  q) 为真。 我们 可以通 过示例 12.3 中所 示的过 
程处 理表示 五的表 达式树 来确定 该值。 读者 可以使 用其他 3 种真 值赋值 为五求 值， 以 此构建 起五所 
表 示的整 个布尔 函数。 

12.3.4  习题 

(1)  针对所 有可能 的真值 赋值， 为以下 表达式 求值， 从 而将它 们的布 尔函数 表示成 集合论 函数。 

(a)  p  AND  {p  OR  q) 

(b)  NOT  p  OR  q 

(c)  {p  AND  q)  OR  (NOT  p  AND  NOT  q) 

(2)  编写 C 语言 函数实 现习题 (1) 中的 逻辑表 达式。 

12.4 真值表 

将布 尔函数 表示为 真值表 是很方 便的， 真值 表中的 各行对 应着各 参数真 值所有 可能的 组合。 
表中 有着对 应各参 数的列 以 及对应 函数值 的列。 


P 

Q 

p  AND  q 

P 

Q 

pOR  q 

P 

NOTp 

0 

0 

0 

0 

0 

0 

0 

1 

0 

1 

0 

0 

1 

1 

1 

0 

1 

0 

0 

1 

0 

1 

1 

1 

1 

1 

1 

1 

图 12-2 对应 AND、 OR 和 NOT 的 真值表 


♦ 示例 12.5 

对应 AND、 OR 和 NOT 的真值 表如图 12.2 所示。 这里 用到了 简略表 示法， 用 1 代表 TRUE, 用 0 
代表 FALSE, 本章其 他部分 也将经 常这样 表示。 因 此对应 AND 的真 值表就 表示， 当且仅 当两个 
操作 数都为 TRUE 时， 结 果才是 TRUE， 而第 二个真 值表则 表示， 当操 作数有 一个为 TRUE 或两个 
都为 TRUE 时， 应用 OR 运 算符的 结果为 TRUE, 而 第三个 真值表 说明， 当 且仅当 操作数 的值为 
FALSE 时， 应用 NOT 运 算符的 结果为 TRUE。 

12.4.1 真值表 的大小 

假设某 布尔函 数具有 &个 参数， 那么 该函数 的真值 赋值就 是具有 A 个元素 的表， 各元 素要么 
为 TRUE， 要么为 FALSE。 计 算对应 A 个变 量的真 值赋值 数就是 4.2 节中 考虑过 的为 分配计 数问题 
的 例子。 也就 是说， 我们可 以为这 F 卜项 每个项 分配两 个真值 之一。 这就和 用两种 可选颜 色粉刷 
灸所房 屋的问 题是类 似的， 因 此真值 赋值的 数目是 / 。 
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因此含 &个 参数 的布尔 函数对 应的真 值表有 21 行， 每 一行都 对应一 种真值 赋值。 例如 ，如 
果 灸=  2, 则真 值表有 4 行， 分 别对应 00、 01、 10 和 11， 正如我 们在图 12-2 中看到 的对应 AND 和 OR 
的 真值表 那样。 

尽管 涉及两 三个变 量的真 值表相 当小。 但 &元函 数对应 2A 行这 一事实 说明， 不 用等到 A 变得 
特 别大， 绘制 真值表 就会很 难了。 例如， 含 10 个参数 的函数 就有逾 1000 行。 在后面 几节中 我们还 
将了 解到， 尽 管真值 表是有 限的， 而 且原则 上讲可 以表示 出我们 想知道 的与布 尔函数 有关的 一切， 
但 它们呈 指数式 增长的 大小通 常迫使 我们寻 找其他 理解、 比较布 尔函数 或为其 求值的 方法。 


理解 “ 蕴涵” 

蕴涵 （implication) 运算符 — 的含 义可能 不那么 直观， 因 为必须 利用到 “假 蕴涵一 切”的 
概念。 我们不 应该把 ^ 和因 果关 系混为 一谈。 也就 是说， ^ 可能 为真， 但;? 并 不是在 任何情 
况 下都会 “ 导致”  g。 例如， 设 是 “ 天在下 雨”， g 是 “ 苏带着 伞”。 我们可 以断言 •  g 为真。 
而且 看起来 似乎就 是下雨 导致苏 带上她 的伞。 不过， 也有可 能苏是 那种不 相信天 气预报 而且不 
会一直 带上雨 伞出门 的人 。 


12.4.2 布尔函 数数量 的计算 

含 灸个 参 数的布 尔函数 对应真 值表的 行数是 以&呈 指数增 长的， 而不同 A 元布尔 函数的 数量增 
长得 更快。 要计算 A 元布尔 函数的 数量， 可以注 意到， 正 如我们 所见， 每个 这样的 函数都 是由具 
有 / 行的真 值表表 示的。 每一行 都会被 赋予一 个值， 要么为 TRUE, 要么是 FALSE。 因此 ，含灸 
个参数 的布尔 函数的 数量就 与具有 2 个值的 /项 的分 配的数 量 相同。 这一 数字是 22\ 例如 ，当 
灸 =  2 时， 就有 222  =16 个 函数， 而对 々  =  5, 存在 225  =  232  , 或者说 是大约 40 亿个 函数。 

在 含两个 参数的 16 种 布尔函 数中， 我 们已经 遇到过 其中的 两个： AND 和 OR。 其他一 些函数 
中 有些是 微不足 道的， 比如不 管参数 为什么 值都为 1 的 函数。 不过， 还有一 些双参 数函数 是很实 
用的， 而 且我们 将在本 节之后 的内容 中看到 它们。 我们 还看到 了实用 的单参 数函数 NOT, 而且 
大 家也经 常会用 到具有 3 个或更 多参数 的布尔 函数。 

12.4.3 更 多逻辑 运算符 

还 有以下 4 种 双参数 的布尔 函数是 非常实 用的。 

(1) 薇涵 （implication), 写为 — 。 g 的含 义是， “如果 户 为真， 那么 g 为真 。” 对应— •的真 
值 表如图 12-3 所示。 请 注意， 只有在 一定 为真 而且彳 一定为 假的情 况下， g 才可 以为假 。如 
果;? 为假， 那么 — g 恒 为真， 而 且如果 ^ 为真， 贝如 为真。 
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Q 
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1 

1 

图 12-3 对应 “ 蕴涵” 的 真值表 
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(2)  等价 （equivalence), 写 为三， 意思是 “ 当且仅 当”， 即只有 当;? 和 g 都为 真或都 为假时 ，才 
有 p 三 q0 它 的真值 表如图 12-4 所示。 另一 种看待 三运算 符的方 式是， 它 表明左 边和右 边的操 作数具 
有 相同的 真值。 这就是 12.2 节中 我们在 声称户 OR  ((NOT/?)  AND  q)  =  (p  OR  q) 时所要 表达的 意思。 

(3)  NAND 运 算符， 或者说 “ 与非” 运 算符， 是首先 对操作 数应用 AND, 然后 对得到 的结果 
应用 NOT 运算符 求补。 NAND  g 就表示 NOT  (/?  AND  0。 

(4)  类 似地， NOR 运 算符， 或者说 “ 或非” 运 算符， 是 先对操 作数取 OR ， 然后 对得到 的结果 
求补， NOR  ^ 就表示 NOT  (/?  OR 的。 NAND 和 NOR 的 真值表 也如图 12-4 所示。 
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Q 

p  =  q 

p 

Q 

p  NAND  q 

P 

q 

p  NOR  q 
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0 

0 

1 
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0 
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1 
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1 

1 

0 

l 
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0 

0 

1 

0 

1 

1 

0 

0 

1 

1 

1 

1 

1 

0 

1 

l 

0 

图 12-4 对应 等价、 NAND 和 NOR 的 真值表 


12.4.4 具 有多个 参数的 运算符 

一些逻 辑运算 符可以 自然地 扩展为 接受两 个以上 参数。 例如， 不 难看岀 AND 是 有结合 性的， 
也就是 (/?  AND 的 AND  r 等价于 p  AND ② AND  r)。 因此， 形如 仍 AND AND … AND  的表 达式 能以任 
意次序 组合， 只有在 巧、 仍、 …、 A 都为真 TRUE 时， 它的 值才为 TRUE。 因 此我们 可以把 该表达 
式写为 具有； C 个参数 的函数 

AND(pi  ,p2  ,  •■-  ,pk) 

它 的真值 表如图 12-5 所示。 正 如我们 所见， 只有在 所有参 数都是 1 时， 结 果才是 1。 


Pi 

P2 

… Pk-l 

Pk 

AND  (pi,p2,  • - 

”  Pk) 

0 

0 

…  0 

0 

0 

0 

0 

…  0 

1 

0 

0 

0 

…  1 
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0 

0 

0 

…  1 
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1 

…  1 

0 

0 

1 

1 

…  1 

1 

1 

图 1 2-5 对应 A: 参数 AND 的 真值表 


一些运 算符的 重要性 

我们对 々元 运算符 AND、 OR、 NAND 和 NOR 特别 感兴趣 的原因 在于， 这些 运算符 是特别 容易以 
电子 形式实 现的。 也 就是说 ， 它们 是构建 “门” （接受 A 个输 入并产 生这些 输入的 AND、 OR、 NAND 
和 NOR 的电子 电路） 的简单 方式。 尽管底 层电子 技术的 细节不 在本书 要介绍 的范围 之内， 但其思 
路通 俗来说 ， 就是用 两种不 同的电 压表示 1 和 0  ( 即 TRUE 和 FALSE  )。 其他 一些运 算符， 比 如三和 
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―， 就不 是很容 易用电 子方式 实现， 而我 们一般 会使用 若干个 NAND 或 NOR 门 来实现 它们。 不过， 
NOT 运算 符既可 看作单 参数的 NAND， 也可 看作单 参数的 NOR, 因 此也是 “很 容易” 实 现的。 


同样， OR 也是具 有结合 性的， 我们可 以把逻 辑表达 式仍 0R/?2  OR … OR 外 表 示成布 尔函数 
OR  (pi,p2,-"Pk)o 对应玩 OR 的真 值表有 f 行， 就像玩 AND 的 真值表 那样。 不过， 对 这一玩 OR 
的 真值表 来说， 只有 &、&、 …、 外 都被 赋值为 0 的第 一行的 值才是 0, 而其余 24-1 行的 值全为 1。 

二元 运算符 NAND 和 NOR 是可 交换但 不可结 合的。 因此 仍 NAND/?2  NAND" -NAND 凡 这个 不含括 
号的 表达式 是没有 固有含 义的。 在讲到 A 元 NAND 时， 并 不表示 
pi  NANDJ92  NAND"  -NAND  pk 
任何 可能的 分组。 而是把 N_  (puP2, …, Pk) 定义为 
NOT  {px  ANDj92  AND"  -AND  ph) 

也就 是说， 只有在 Pi 、；?2、 …、; ^的 值都为 1 时， NAND  (/^2, …, 凡) 的 值才是 0, 对其他 /-I 种输入 
组合 而言， 其 值都为 1。 

同样， NOR(/9 up2, ■■- ,pk)^^NOT  (pl0Rp20R---0Rpk)o 只有在 、/?2、 … 、外 的值 全部是 0 时 ，它 
的 值才是 1， 否则它 的值为 0。 

12.4.5 逻 辑运算 符的结 合性与 优先级 

我们将 用到的 优先级 次序是 

(1)  NOT  ( 最高） 

(2)  NAND 

(3)  NOR 

(4)  AND 

(5)  OR 

⑹— 

(7) = ( 最低） 

因此， 举例 来说， 户― 三 NOT  ORg 被分 组为 (/?4户)三((船1尸)01^)0 

正 如我们 之前提 过的， AND 和 OR， 以 及三， 都 是具有 结合性 和交换 性的。 如 果有必 要指定 
的话， 一般会 假设它 们是从 左起组 合的。 我 们一般 会明确 地给出 括号， 以 防出现 歧义， 不过 
NAND 和 NOR 这 样的运 算符在 两个或 多个相 同运算 符组成 的串中 都是从 左起组 合的。 

12.4.6 利 用真值 表为逻 辑表达 式求值 

只要 表达式 五中不 含太多 变量， 利用 真值表 针对所 有可能 的真值 赋值计 算和展 示五的 值就是 
一种 方便的 方法。 我们首 先有对 应£中 各变量 的列， 然 后是按 照从下 到上为 E 的表 达式树 求值的 
次序对 应£ 各子 表达式 的列。 

在 对表示 某些节 点的值 的列应 用运算 符时， 我们 会用一 种简单 的方式 为对应 该运算 符的列 
执行 运算。 例如， 如果 希望对 两列取 AND, 就在两 列都为 1 的那行 中放上 1， 并在 其他行 中放上 0。 
要是为 两列求 OR， 就 要在其 中一列 或者两 列都为 1 的 那几行 中放上 1， 并在 其他行 中放上 0。 如 
果要为 一列取 NOT， 就是 为该列 求补， 如果 那列有 0, 则放上 1， 反之 亦然。 最后 再举个 例子， 
对 两列应 用—运 算符， 只有 在第一 列为 1 且第 二列为 0 时， 其结 果才是 0, 结 果中的 其他各 行都是 1。 

其他 一些运 算符的 规则留 作本节 习题。 一般 而言， 我们 会通过 一行行 地对所 在行中 各值应 
用运 算符， 以 对各列 应用运 算符。 
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♦ 示例 12.6 

考虑 表达式 £:  (/?  AND 的 ^  OR  r)。 图 12-6 给岀了 对应 该表达 式及其 子表达 式的真 值表。 
(1)、 （2)、 （3) 这 3 列给 出了变 量/?、 g 和 r 的值 的所有 组合。 第 (4) 列给 出了子 表达式 AND  g 的值， 
只 要第⑴ 和第 (2) 列的 值都是 1， 该列的 值就是 1。 而第 (5) 列给 岀了子 表达式 p  OR r 的值， 在第 (1) 
列或第 (3) 列为 1， 或者第 (1) 和第 (3) 列都为 1 时， 第 (5) 列 的值是 1。 最后， 第 (6) 列表 7K 整个 表达式 
崩 勺值。 它是 通过第 (4) 和第 (5) 列得 到的， 除了第 (4) 列为 1 且第 (5) 列为 0 的情 况外， 这列的 值都是 
1。 因 为不存 在这样 的行， 所以第 (6) 行全是 1， 也就是 说不管 参数是 什么， 芯的真 值都是 1。 正如 
我 们将在 12.7 节中看 到的， 这样 的表达 式称为 “重言 式”。 
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(2) 

(3) 

⑷ 
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⑹ 
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p  ORr 
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0 
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0 

1 
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0 
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0 
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0 

1 
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0 

0 
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0 

1 

1 

0 

1 

1 

1 

0 

0 

0 

1 

1 

1 
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1 

1 
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1 
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1 

1 

1 

1 

1 

1 

1 

图 12-6 对应 0?  AND 的 —  OR  r) 的 真值表 


文 氏图和 真值表 

真 值表与 7.3 节 中讨论 过的表 示集合 运算的 文氏图 之间存 在着相 似性。 首先， 并 集运算 就类似 
于 真值的 OR， 而交集 则类似 AND。 我 们将在 12.8 节中 看到， 这两对 运算满 足相同 的代数 法则。 就像 
涉及 J: 个集合 作为参 数的表 达式会 把文氏 图分成 2〃  个区域 那样， 具有 A 个变量 的逻辑 表达式 也会形 
成具有 2M 亍的真 值表。 此外， 在这些 区域与 这些真 值表行 之间也 存在自 然的对 应。 例如， 具有变 
ip,  g 和 r 的逻辑 表达式 就对应 涉及八 0^? 这 3 个 集合的 集合表 达式。 考 虑对应 这些集 合的文 氏图： 


在 这里， 区域 0 对应 不在/ \  0、 尺任意 一个中 的元素 构成的 集合。 区域 1 则对 应着在 中但 
不 在尸或 g 中的 元素。 一般 地讲， 如 果考虑 3 位区域 编号的 二进制 表示， 比 方说是 Mc， 那么如 
果 a  =  l, 则表示 元素在 尸中， 如果 6  =  1 则在 0 中， 而如果 c  =  l 则在 尺中。 因此， 编号为 0&)2的 
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区域就 对应着 r 分别具 有真值 a、 6、 c 时真 值表的 那行。 

在处 理文氏 图时， 表示两 个集合 并集的 区域会 包含对 应两者 中任一 集合的 区域。 与 此相似 
的是， 在为 真值表 中的列 求 OR 时 ，我们 会在 第 一列有 1 的 行与第 二列有 1 的行的 并集中 放上 1 。 
类 似地， 文氏 图中表 示集合 交集的 区域就 是只取 重在这 两个集 合中的 区域， 而 为列求 AND 就是 
在第 一列有 1 的行与 第 二列有 1 的行的 交集 中放上 1 。 

逻辑 运算符 NOT 与 集合运 算符没 有太多 对应。 不过， 如 果将所 有区域 的并集 想象成 个“全 
集”， 那 么逻辑 NOT 对 应着取 走一些 区域， 并生 成文氏 图中剩 余区域 组成的 集合， 也就是 从全集 
中减去 给定的 集合。 


12.4.7 习题 

(1)  给出计 算真值 表中两 列的⑻ NAND;  (b)  NOR;  (c)  = 的 规则。 

(2)  为以 下表达 式及它 们的子 表达式 计算真 值表。 

(a)  {p  —  q) 三 (NOT  p  OR  q) 

(b)  p^(q-^(r  OR  NOT  p)) 

(c)  {p  OR  q)~^  {p  AND  q) 

(3)  * 逻辑 表达式 p  AND  NOT  g 对应什 么集合 运算符 ？ （ 见之前 比较 文氏图 和真值 表的短 文。） 

(4)  * 给 岀说明 ―、 NAND 和 NOR 不具结 合性的 例子。 

⑶ ** 如果布 尔函数 茜足 /(TRUE  J2, 而， …, 办) =/ (FALSE  ,  X3, …, Xfc) , 则说 / 是不 依赖第 一 个参 数的。 

同样， 如果 /的第 i 个参 数在 TRUE 和 FALSE 之间 变换却 不会使 /的值 改变， 就可以 i 兑 / 是不 依赖第 / 个参 
数的。 有多 少双参 数布尔 函数是 不依赖 它们的 第一个 或第二 个参数 （或 两个参 数都不 依赖） 的？ 

(6)  * 为具 有两个 变量的 16 种布 尔函数 构建真 值表。 这些函 数中有 多少种 具有交 换性？ 

(7)  二 元异或 ( exclusive-or  ) 函数 ㊉的定 义是， 当 且仅当 只有其 中一个 参数为 TRUE 时 其值为 TRUE。 

(a)  画岀㊉ 的真 值表。 

(b)  ㊉是否 具有交 换性？ 它是否 具有结 合性？ 

12.5 从布 尔函数 到逻辑 表达式 

现 在考虑 从真值 表设计 逻辑表 达式的 问题。 从作 为逻辑 表达式 规范的 真值表 开始， 目标则 
是找到 具有给 定真值 表的表 达式。 一般 而言， 可以 利用无 数个不 同的表 达式， 我 们往往 将选择 
限 制到特 定的运 算符集 合中， 而且通 常会希 望表达 式从某 种意义 上讲是 “ 最简单 的”。 

该问题 是电路 设计中 的基础 问题。 表达式 中的逻 辑运算 符可以 被理解 成电路 的门， 这样的 
话就存 在从逻 辑表达 式到电 子电路 的直接 转化， 这种 转化是 通过第 13 章将要 讨论的 过程实 现的。 


x  y 


图 12-7  — '位加 法器： （办)2 是 x  + 少 +  e 白勺和 
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♦ 示例 12.7 

正如 我们在 1.3 节中看 到的， 可 以用图 12-7 所示的 这种一 位加法 器设计 32 位加 法器。 一位加 
法器会 把两个 输入位 x 和 y 与进位 输人位 c 相加， 得 到进位 输出位 d 与 和值位 z。 

图 12-8 中 的真值 表给出 了进位 输岀位 d 与 和值位 z 的值， 将 其表示 为对应 8 种 输入值 组合的 X、 
7、 c 的 函数。 如果 jc、 j 和 c 中至少 有两个 的值是 1， 进位输 出位濟 尤是 1， 而只有 在输入 中没有 1 或 
者只 有一个 1 时， 才有 #0。 如果 x、 和 c 中有奇 数个为 1， 和值位 z 就是 1， 否 则就是 L 
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图 12-8 对 应进位 输岀位 与 和值位 z 的真 值表 


我 们要展 示一种 从真值 表立即 转换成 逻辑表 达式的 一般性 方法。 不过， 给定图 12-8 中进位 
输 岀函数 d 的情 况下， 可 以按照 如下方 式进行 推理， 构建 对应的 逻辑表 达式。 

(1)  从第 3 行和第 7 行 可知， 如果: f 和 c 都是 1， 则 d 是 1。 

(2)  从第 5 行和第 7 行 可知， 如果 X 和 c 都是 1， 则 d 是 1。 

(3)  从第 6 行和第 7 行 可知， 如果 X 和: f 都是 1， 则 ^ 是 1。 

条件 ⑴可以 用逻辑 表达式 y  AND  C 模拟， 因为: F  AND  c 只有在 y 和 C 都是 1 时才 为真。 同样， 条件 (2) 
可以用 JC  AND  C 模拟， 而条件 (3) 则 可通过 X  AND  J； 模拟。 

所有有 d=l 的行 都是这 3 种情况 中的某 一行。 因此 可以写 出一个 逻辑表 达式， 它只 要在这 3 
个条 件中至 少有一 个成立 的情况 下为真 即可， 也就是 要为这 3 个 表达式 取逻辑 OR: 

(y  AND  c)  OR  (x  AND  c)  OR  (jc  AND  乂）  (12.5) 

这一 表达式 的正确 性在图 1 2-9 中 得到了 验证。 后 4 列 分别对 i 子 表达式 y  AND  C 、 X  AND  C 、 X  AND 
y 和 表达式 (12.5)。 
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图 1 2-9 对应进 位输岀 表达式 ( 1 2 . 5) 及 其子表 达式的 真值表 


12.5.1 简 化符号 


在 继续描 述如何 从真值 表构建 表达式 之前， 我们要 对表示 法进行 一些有 意义的 简化。 
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(1)  可以 通过直 接并列 （也 就是 不使用 任何运 算符） 表示 AND 运 算符， 就 像表示 乘法， 以及 
第 10 章 中表示 串接时 那样。 

(2)  OR 运算 符可以 表示为 

(3)  NOT 运算符 可以用 上横线 表示。 这种 约定在 NOT 应用 到单个 变量上 时特别 实用， 我们经 
常把 NOT  p 写为 p 。 

♦ 示例 12.8 

表达式 ANDg  ORr 可以 写为网 +r， 表达式 p  AND  NOT  g  OR  NOT  r 贝 U 可以 写为河 +  F 。 我们甚 
至 可以将 原始符 号与简 化符号 混用。 例如， 表达式 

((/?  AND  q)  r)  AND  (p  ^  s) 

可 以写成 —  AND  (/?—•■?)， 甚至可 以写成 (pg  ― *r) 

使用这 种新表 示法的 一个重 要原因 在于， 这样 可以让 我们把 AND 和 OR 视作算 术运算 中的乘 
法和 加法。 因此可 以应用 诸如交 换律、 结合律 和分配 律这样 的类似 法则， 在 12.8 节中我 们将会 
看到 这些法 则适用 于这些 逻辑运 算符， 就像这 些法则 对相应 的算术 运算符 所做的 那样。 例如， 
我们 会看到 /初 +r) 可以被 替换， 然后被 替换， 不管涉 及的运 算符是 AND 和 OR ， 还是乘 
法和 加法。 

因为 有了这 种简化 符号， 通常可 以把表 达式的 AND 称 为积， 把表 达式的 OR 称 为和。 表达式 
的 AND 也可以 称为合 取 （ conjunction  ), 而表 达式的 OR 还可以 叫作析 取 （ disjunction  )。 

12.5.2 从真 值表构 建逻辑 表达式 

任何布 尔函数 都可以 用使用 AND、 OR 和 NOT 运算符 的逻辑 表达式 表示。 为给定 的布尔 函数找 
到最简 单的表 达式一 般是很 难的。 不过， 为布 尔函数 构建某 一表达 式却很 容易， 用到的 技巧也 
很 简单。 首先从 函数的 真值表 开始， 构 建形如 

m\  OR  m2  OR---OR  mn 

的 逻辑表 达式。 各个 m, 都 是与真 值表中 让函数 的值为 1 的某一 行对 应的。 因 此该表 达式中 项数与 
表示 函数的 那列中 1 的个 数是相 等的。 这些 叫 项都 被叫作 最小项 （minterm)， 并具 有下面 将要描 
述 的特殊 形式。 

要开 始对最 小项的 解释， 首 先要提 到文字 （literal), 这里 的文字 要么为 单个命 题变量 （比 
如 P)， 要 么为求 反变量 （比如 我们一 般会写 为歹的 NOT；? )。 如果 真值表 中有砂 J 表示 变量 的列， 
那 么每个 最小项 都是由 A 个文字 的逻辑 AND  (或 “ 积”） 表 示的。 设 r 是我们 想为其 构建最 小项的 
某 一行。 如果变 量；? 在行 r 的值是 1， 就选 择文字 如 果;? 在行 .值是 0, 则选 择户作 为文字 。行 
r 的 最小项 就是各 变量对 应文字 的积。 明确 地讲， 如果所 有变量 都有真 值表行 r 中的 值， 那么最 
小项的 值就只 可能是 1。 

现在 要通过 为与函 数值为 1 的行 对应的 最小项 求逻辑 OR  (或 “和 ”）， 来 为函数 构建表 达式。 
得到 的表达 式具有 “积 的和” 的 形式， 或者说 它是析 取范式 （ disjunctive  normal  form  )。 该表达 
式是正 确的， 因为只 有在存 在值为 1 的最小 项时， 它的 值才是 1， 而 除非变 量的值 对应着 真值表 
中该 最小项 所在的 那行， 而 且该行 的值为 1， 否 则该最 小项不 可能为 U 

♦ 示例 12.9 

我们来 为由图 12-8 中的真 值表所 定义的 进位输 出函数 4 勾 建析取 范式。 值为 1 的行的 编号分 
别是 3、 5、 6 和 7。 第 3 行有 x=l、 7=1 和 c=l， 因 此该行 的最小 项是无 AND AND C， 可以 将其简 
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写为办 c 。 类 似地， 第 5 行的最 小项是 xyc ， 第 6 行的最 小项是 ， 而第 7 行的最 小项是 因 
此所需 的对应 ^ 的表 达式就 是这些 表达式 的逻辑 0R， 也就是 

xyc-h  xyc  +  xyc  +  xyc  (12.6) 

这 一表达 式要比 (12.5) 更 复杂。 不过， 我 们将在 12.6 节中 看到如 何得出 表达式 (12.5)。 

同样， 通过把 对应第 1、 2、 4 和 7 行的 最小项 相加， 可以为 和值位 z 构建 逻辑表 达式， 得到 


xyc  +  xyc  +xycJr  xyc 


运 算符的 完全集 

用 来设计 (12.6) 式 这样析 取范式 的最小 项技术 表明， 逻辑 运算符 AND、 OR 和 NOT 的 集合是 
完 全集， 就 是说， 每 个布尔 函数都 具有只 使用这 3 种运算 符的表 达式。 不 难证明 NAND 本 身也是 
完 全的。 我 们可以 将涉及 AND、 OR 和 NOT 的函 数只用 NAND 表示 成如下 这样。 

(1) 0  AND  q)  =  ({p  NAND  q)  NAND  TRUE) 

(2)  (p  OR  q)  =  ((p  NAND  TRUE  )  NAND  (q  NAND  TRUE  )) 

(3)  (  NOT  p)  =  (p  NAND  TRUE) 

通过用 合适的 NAND 表达 式来替 换用到 AND、 OR 和 NOT 的 地方， 可以 把任何 析取范 式转换 
成 只涉及 NAND 的表 达式。 同样， NOR 自身 也是完 全的。 

由 运算符 AND 和 OR 构成的 集合就 不是完 全集。 比 方说， 它们 没法表 示函数 NOT。 要 知道原 
因， 我 们可以 注意到 AND 和 OR 都是单 调的， 这就 是说， 在把任 何一个 输入从 0 变为 1 时， 输出都 
不能从 1 变成 0。 可 以通过 对表达 式的大 小进行 归纳， 证明任 何只有 AND 和 OR 运算 符的表 达式都 
是单 调的。 不过 NOT 显 然不是 单调的 ，因 此没 办 法只用 AND 和 OR 表示 NOT。 
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图 12-10 用于 习题的 两个布 尔函数 


12.5.3  习题 


(1)  图 12-10 是 用变量 p、 g 和？ •定义 a 和 这两个 布尔函 数的真 值表， 为这两 个函数 分别写 岀析取 范式。 

(2)  为下 列函数 写岀合 取范式 （见 下面的 附注栏 “ 和的积 表达式 ”）。 

(a)  图 12-10 中 的函数 a。 

(b)  图 12-10 中 的函数 6。 

(c)  图 12-8 中 的函数 z。 
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和的积 表达式 

有 两种方 式可以 把真值 表转换 成涉及 AND、 OR 和 NOT 的表 达式， 这 里的表 达式将 会是文 字之和 （逻 
辑 OR  ) 的积 （逻辑 AND  ) 。 这 种形式 就叫作 “和的 积”， 或合 取范式 （ conjunction  normal  form  ) 。 

对真 值表的 各行 而言， 我们 可 以定义 最大项 ，它 是与 所 在行中 某一参 数变量 的值不 相同 的文字 的和。 
也 就是说 ， 如 果该行 中变量 的值是 0， 就使 用文字 /?， 如 果那行 中; ? 的值为 1， 就使用 p 。 因此， 除 非每个 
变量 P 都 具有该 行指定 给; 7 的值， 否则 最 大项的 值就是 1。 

因此， 如 果查看 真值表 中值为 0 的 各行， 并为这 些行的 最大项 取逻辑 AND, 该 表达式 就只会 在输入 
匹配函 数值为 0 的 某一行 时值为 0。 这样 一来， 该表 达式对 其他各 行而言 值都为 1, 也 就是对 真值表 中函数 
值为 1 的那 些行来 说都是 1。 例如， 图 12-8 的真值 表中， 第 0、 1、 2 和 4 行对应 d 的值为 0。 比 方说， 第 0 行的 
最大 项就是 x  +  _y  +  c, 而第 1 行 的最大 项就是 x  +少 +  了 ， 所以 的 合取范 式就是 

(x  +  J  +  c)(x  +  j  +  c)(x  +  y  +  c)(x  +  y-\-c) 

该表 达式与 (12.5) 和 (12.6) 式 都是等 价的。 


(3)  ** 以 下哪个 逻辑运 算符可 以单独 形成运 算符完 全集： (a)  =  ；(6)^；(c)NOR? 在每种 情况中 都对自 
己的答 案加以 证明。 

(4)  ** 在 16 个双 变量的 布尔函 数中， 有 多少函 数自身 就是完 全的？ 

(5) * 证明， 单调 函数的 AND 和 OR 还是单 调的。 然后证 明只含 AND 和 OR 运 算符的 表达式 都是单 调的。 

12.6 利用卡 诺图设 计逻辑 表达式 

在本 节中， 我们要 展示一 种为布 尔函数 确定析 取范式 的制表 技巧。 用 这种方 法生成 的表达 
式通 常要比 12.5 节中 通过为 真值表 中所有 必要的 最小项 求逻辑 OR 这 样的权 宜之计 所构建 出的表 
达式更 简单。 

举例 来说， 在示例 12.7 中， 我们为 一位加 法器的 进位输 出函数 对应的 表达式 进行了 专门设 
计。 可以 看到， 有 可能使 用不是 最小项 的文字 之积， 也就 是说， 缺 少与某 些变量 对应的 文字。 
例如， 可 以用文 字之积 xy 来 涵盖图 12-8 中的第 ⑹和第 (7) 两行， 因 为只有 在变量 x、 j； 和 c 具有 这两 
行中 的 某一行 所表示 的 值时， xj； 的 值才是 1 。 

同样， 在示例 12.7 中， 我们 使用了 表达式 xc 来 涵盖第 (5) 和第 (7) 行， 并用〆 涵盖第 (3) 和第 (7) 
行。 请 注意， 所有 3 个表达 式都涵 盖了第 7 行。 不过 这并没 有什么 坏处。 其实， 假 如分别 只使用 
对应第 (5) 和第 (3) 行的最 小项， 也就是 xyc 和办 c， 来替代 xc 和 yc, 我们会 得到正 确的表 达式， 
但 它就要 比示例 12.7 中 得到的 表达式 jcj  +  jcc  +  ^c 多 两个运 算符。 

这 里的基 本概念 就是， 如果 两个最 小项唯 一的区 别是某 一个变 量的值 相反， 比如第 (6) 和第 
(7) 行的 和 X%， 就可 以通过 取相同 的文字 并去掉 那个有 区别的 变量， 把两个 最小项 结合起 
来。 这一结 论遵从 以下一 般法则 

(pq +pq)  =  q 

要理解 这一等 价性， 就 要注意 到如果 g 为真， 那 么要么 为真。 要么 pq 为真。 而且 反过来 ，如 
果/ ^或和 r 有一个 为真， 那么一 定有彳 为真。 

12.7 节中介 绍了验 证这些 法则的 技巧， 不 过现在 只要其 直觉含 义支撑 其使用 即可。 还要注 
意到， 该法则 的使用 并不仅 限于最 小项。 例如， 可以设 p 是任 意命题 变量， 而 ^ 是 任意的 文字之 
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积。 你可以 合并任 何两个 只有一 个变量 不同的 文字积 （一 个积含 有变量 本身， 另 一个则 含有其 
互补变 量）， 用 由相同 文字组 成的一 个积代 替这两 个积。 

12.6.1  卡诺图 

有一 种制图 技巧， 可以 根据真 值表设 计析取 范式， 这种 方法对 最多含 4 个变量 的布尔 函数来 
说效果 甚佳。 这种 思路就 是把真 值表写 成名为 卡诺图 （Karnaugh  map) 的二维 数组， 该 二维数 
组的项 （或 者说 “点 ”） 各自 表示真 值表中 的行。 通过 让只有 一个变 量不同 的行所 对应的 点保持 
邻接， 可 以把有 用的文 字积看 作某些 矩形， 而这些 矩形中 的点的 值都是 1。 

12.6.2 双变量 卡诺图 

最 简单的 卡诺图 是对应 双变量 布尔函 数的。 各行 对应着 其中一 个变量 的值， 而各列 对应另 
一 个变量 的值。 图中 的项是 0 或 1， 取决 于两个 变量值 的组合 使函数 的值为 0 还是为 1。 因此 ，该 
卡诺 图是双 变量布 尔函数 真值表 的二维 表示。 

♦ 示例 12.10 

在图 12-11 中， 我们看 到表示 “ 蕴涵” 函数 的卡 诺图。 其中 4 个 点分别 对应着 p 和㈤勺 
值 4 种 可能的 组合。 请 注意， 除了  =  1 且 q  =  0 的情况 之外， “ 蕴涵” 的 值都是 1， 因此， 卡诺图 
中值为 0 的点只 有对应 p  =  \Kq  =  0 的 那项， 其 他点的 值都是 1 。 
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1 

1 

0 

1 

图 12-11 表示; ?  4  g 的 卡诺图 


12.6.3 蕴涵项 

布 尔函数 / 的蕴 涵项 （implicant) 是 一些文 字的积 x， 它满 足的条 件是： 伸 变量 的任 何赋值 
组合都 不能使 x 为真且 / 为假。 例如， 每一个 让函数 / 的值是 1 的最小 项都是 / 的蕴 涵项。 不过 ，其 
他 积也可 以是蕴 涵项， 我们将 会了解 如何从 / 的卡 诺图 中解读 这些蕴 涵项。 

♦ 示例 12.1 1 

最小项 W 是图 12-11 中 “ 蕴涵” 函 数的蕴 涵项， 因为让 网 为真的 变量赋 值组合 （即 p  =  l 且 
q  =  0  ) 也能使 “ 蕴涵” 函数 为真。 

再举个 例子， 户本 身也是 “ 蕴涵” 函 数的蕴 涵项， 因为 使为真 的两种 叫赋值 组合， 也能 
让 p  —  q 为真。 这 两种赋 值组合 分别是 p  =  0 且 7  =  0, 以及 p  =  0 且 ^  =  1。 

蕴 涵项涵 盖了函 数值为 1 的那 些点。 通 过为涵 盖了所 有令函 数值为 1 的 点的蕴 涵项取 OR， 就 
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可以为 布尔函 数构建 逻辑表 达式。 

♦ 示例 12.12 

图 12-12 展示 了对应 “ 蕴涵” 函数 的卡诺 图中的 两个蕴 涵项。 较大 的那个 涵盖了 两个点 ，对 
应 着单个 文字歹 。这 一蕴涵 项涵盖 了卡诺 图中顶 部的两 个点， 这两 个点的 值都是 1。 而较 小的蕴 
涵项 涵盖了  p  =  1 且 g  =  1 的那 个点。 因 为这两 个蕴涵 项加在 一起涵 盖了所 有值为 1 的点， 所以 
它们 的和户 + 外 就是与 p^q 等 价的表 达式， 也 就是说 (p^q)  =  (p  +  pq)  0 


0  1 


0  1  1 

P  _ 

1  0  1 


图 12- 12 表示 p  —  q 的卡 诺图中 的两个 蕴涵项 p  ^Wpq 

与卡诺 图中的 蕴涵项 对应的 矩形必 须具有 特殊的 “外 观”。 对源 自双变 量函数 的简单 卡诺图 
来说， 这 些矩形 只可能 是下列 之一。 

⑴单 个点； 

(2)  某行或 某列； 

(3)  整 个图。 

卡诺图 中的单 个点对 应着最 小项， 通 过为该 点所在 行和列 相应变 量对应 的文字 求积， 便可 
以得 岀其表 达式。 也就 是说， 如果 该点所 在的行 或列是 0, 就 可以分 别为该 行或该 列对应 的变量 
取反。 如 果该点 在对应 1 的行或 列中， 就 取对应 的变量 本身。 例如， 图 12-12 中较 小的蕴 涵项就 
在;?  =  1 的 那行和 ^  =  1 的那 列中。 这就是 我们要 用非否 定文字 ^和^ 的积作 为该蕴 涵项的 原因。 

双变量 卡诺图 中 行或列 对应着 两个对 一个变 量相同 而对另 一个变 量相反 的点。 与之 对应文 
字的 “积” 就减少 为单个 文字。 剩下 的这个 文字具 有共同 值为这 些点所 共享的 变量。 如 果该共 
同值是 0, 那么 该文字 就是否 定的， 而如 果共享 的值是 1， 该 文字就 是非否 定的。 因此， 图 12-12 
中较 大的蕴 涵项， 即第 一行， 其中的 点具有 相同的 ^值。 该值是 0, 这样就 说明为 该蕴涵 项使用 
文字积 ^ 是合 理的。 

由整个 图组成 的蕴涵 项是种 特例。 原则 上讲， 这 对应着 积退化 为常数 1， 或者说 TRUE 的情 
况。 显然， 对 应逻辑 表达式 TRUE 的卡诺 图在图 中所有 点的位 置都是 1。 

12.6.4 质 蕴涵项 

如果布 尔函数 / 的蕴 涵项 x 在删 除其中 任何文 字后不 再为蕴 涵项， 贝 k 就是 / 的质 蕴涵项 （ prime 
implicant  )0 事 实上， 质 蕴涵项 就是所 含文字 尽可能 少的蕴 涵项。 

请 注意， 这样 的矩形 越多， 其积中 文字的 数量就 越少。 我们一 般会选 择用文 字较少 的积替 
换 具有很 多文字 的积， 文字较 少的积 涉及的 运算符 更少， 因此 “ 更加简 单”。 所以 我们在 选择若 
干 蕴涵项 涵盖卡 诺图时 最好只 考虑那 些质蕴 涵项。 
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请 记住， 对 应某给 定卡诺 图的每 个蕴涵 项都只 由值为 1 的点 组成。 一个 蕴涵项 之所以 是质蕴 
涵项， 是 因为使 其大小 翻番可 能会迫 使我们 融入一 个值为 0 的点。 

♦ 示例 12.13 

在图 12-12 中， 较 大的蕴 涵项户 是质蕴 涵项， 因为唯 一可能 比它还 大的蕴 涵项是 全图， 而后 
者不可 能是蕴 涵项， 因 为全图 中含有 0。 较小的 蕴涵项 不 是质蕴 涵项， 因为它 被包含 在只由 1 
组成、 同为该 “ 蕴涵” 卡诺图 蕴涵项 的第二 列中。 图 12-13 展示 出了该 “ 蕴涵” 图 仅有的 质蕴涵 
项。 ® 它们 对应着 积户和 t 而且它 们可以 进一步 组成表 达式户 +  g ， 我们在 12.3 节 中就注 意到这 
一表达 式是与 —  9 等 价的。 

Q 


0  1 


1 

1 
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1 

图 12-13 对应 “ 蕴涵” 函数的 质蕴涵 项戶和 g 


12.6.5 三变量 卡诺图 

当真值 表中有 3 个变 量时， 我 们可以 使用图 12-14 这样两 行四列 的图， 该图 对应图 12-8 所示 
的进位 输出真 值表。 请 注意， 与两 个变量 （本 例中 是变暈 y 和 c) 的 值对对 应的各 列是按 照一种 
特别的 次序排 列的。 原因 在于， 我 们希望 邻接的 列对应 的真值 赋值只 有一个 变量是 不同的 。假 
如按 照一般 的顺序 00、 01、 10、 11 来 排列， 中间 的两列 就会有 y 和 c 两个变 量是不 同的。 还要注 
意， 第 一列和 最后一 列也是 “邻接 的”， 这样 它们只 有变量 J 是不 同的。 因此， 当 我们选 择蕴涵 
项时， 可 以把第 一列和 最后一 列看作 2x2 的 矩阵， 而 且可以 把每行 的第一 个点和 最后一 个点当 
作 1x2 的 矩阵。 
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图 12-14 对 应进位 输岀函 数的卡 诺图， 其 中质蕴 涵项是 xc、 yc^Uxy 


① 一般 来讲， 可能 有多个 可以涵 盖某给 定卡诺 图的质 蕴涵项 集合。 
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我们需 要推导 该三变 量卡诺 图有哪 些矩形 表示可 能的蕴 涵项。 首先， 许可的 矩形必 须对应 
文字 的积。 在任何 积中， 各变量 只可能 以如下 3 种方 式之一 出现： 否 定的、 非否 定的， 或 根本没 
有。 当变 量是否 定的或 非否定 的时， 它会 让对应 蕴涵项 的点数 减半， 因为 只有具 有该变 量合适 
的值的 点才属 于该蕴 涵项。 因此， 蕴涵项 中的点 数总是 2 的 乘方。 因此， 对 各变量 而言， 许可的 
蕴涵项 是满足 以下条 件之一 的若干 个点。 

(1)  只包 含该变 量等于 0 的点； 

(2)  只包 含该变 量等于 1 的点； 

(3)  该 变量是 什么值 都没有 区别。 


从 卡诺图 中解读 蕴涵项 

不 管涉及 多少个 变量， 都可以 取任一 表示蕴 涵项的 矩形， 并生 成只对 该矩形 中的点 来说为 
TRUE 的文 字积。 如果 是任意 变量， 那么 

(1) 如果该 矩形中 的每个 点都有 ；?  =  1 ， 那么 户是该 积中的 文字。 

⑺ 如果该 矩形中 的每个 点都有 p  =  0, 那么歹 是该积 中的 文字。 

(3) 如 果该矩 形中某 些点有 ；7  =  0， 而另一 些点有 ；?  =  1， 那么该 积中没 有变量 的 文字。 


对 三变量 卡诺图 而言， 可以 按照以 下方式 列举可 能的蕴 涵项。 

(1)  任 何点。 

(2)  任 何列。 

(3)  任何 一对水 平邻接 的点， 包 含末端 环回的 情况， 也 就是各 行的第 1 列和第 4 列 构成的 
一 '对 。 

(4)  任 何行。 

(5)  任何 由两列 邻接列 组成的 2x2 正 方形， 包 括末端 环回的 情况， 也 就是第 1 和第 4 列。 

(6)  整 个图。 

♦ 示例 12.14 

对应进 位输岀 函数的 3 个 质蕴涵 项如图 12-14 所示。 我们可 以将各 质蕴涵 项转换 成文字 之积， 
详细方 法见上 文附注 栏内容 “ 从卡诺 图中解 读蕴涵 项”。 Xt 应的 积是最 左边的 xc， 垂直的 ^ 和最 
右边的 吵。 这 3 个 表达式 的和就 是我们 在示例 12.7 中用非 正式方 法得岀 的析取 范式， 你现 在应该 
就 明白这 一表达 式是怎 么得出 的了。 

♦ 示例 12.15 

图 12-15 展示 了与三 变量布 尔函数 NAND(p,  %  r) 对 应的卡 诺图。 质蕴 涵项有 

(1)  第 一行， 对 应歹； 

(2)  前 两行， 对应 孕； 

(3)  第 1 和第 4 列， 对应 F。 

因此该 卡诺图 的析取 范式是 $  + 歹 +  F 。 


12.6 利用卡 诺图设 计逻辑 表达式  537 


qr 


00  01  11  10 


1 

1 

1 

1 

1 

1 

0 

1 

图 12-15  NAND(p,  q,  r) 的卡 诺图， 其中质 蕴涵项 是户、 歹和 F 

12.6.6 四变量 卡诺图 

四参 数函数 可以用 4x4 的 卡诺图 表示， 该图中 两个变 量对应 各行， 另 两个变 量对应 各列。 
对图 中的行 和列， 我们必 须用到 之前为 三变量 卡诺图 的列排 序时所 用到的 次序， 得到的 四变量 
卡诺图 就如图 12-16 所示。 对 四变量 卡诺图 来说， 行和列 的邻接 都要考 虑到末 端环回 的情况 。也 
就 是说， 顶部 的行和 底部的 行是邻 接的， 最左 的列和 最右的 列是邻 接的。 作 为一个 重要的 特例， 
4 个角 上的点 也形成 了一个 2x2 的 矩形， 它们对 应着图 12-16 中的文 字之积 奸 （这 不是图 12-16 
中的蕴 涵项， 因为右 下角是 0)。 


00  01  11  10 


00  1  1 


01  1  0 

pq 

11  0  0 


0  1 

0  0 

0  0 


10  1 


0 


图 12-16 标示 了质蕴 涵项， 对应 “至 多一个 1” 函数的 卡诺图 

四变量 卡诺图 中 对应文 字积的 矩形分 别为： 

(1)  任 何点； 

(2)  任何 两个水 平或垂 直方向 上的邻 接点， 包 含那些 末端环 回情况 下的邻 接点； 

(3)  任何行 或列； 

(4)  任何 2x2 正 方形， 包括那 些末端 环回的 情况， 比 如顶部 的那行 中的两 个点， 以 及同两 
列中 底部那 行的两 个点。 正如 之前提 过的， 图中 4 个角 上点也 是这种 “正 方形” 的一个 特例； 

(5)  任何 2x4 或 4x2 的 矩形， 包括那 些末端 环回的 情况， 比如第 一列加 上最后 一列； 
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(6) 整 个图。 

♦ 示例 12.16 

图 12-16 展示了 具有; ?、 ^、 r、 M 个变 量布尔 函数对 应的卡 诺图， 该函 数在输 人中至 多有一 
个 1 时 值才是 1。 其中有 4 个质蕴 涵项， 都是 大小为 2 的， 而且 其中有 两个是 末端环 回的。 顶部那 
行的 第一个 点和最 后一个 点组成 的蕴涵 项中， 两 个点的 ；?、 ^ 和 s 变量具 有相同 的值， 而且 各变量 
的共同 值都是 0。 因此它 的文字 积就是 尹^。 而类 似地， 其 他蕴涵 项的积 分别是 、 prs^U 
朽 。 所以对 应该函 数的表 达式为 

pqr  +  pqJ  +  pr~s+  qTJ 


00  01  11  10 


00 

01 

M 

11 

10 


0  0  0  1 


10  0  0 


1:0  1:1 


图 12-17  4 个角 组成的 蕴涵项 为质蕴 涵项的 卡诺图 


♦ 示例 12.17 

之所以 选择图 12-17 中的卡 诺图， 是因为 其中的 1 所 具有的 模式， 而不 是出于 其函数 所具有 
的显著 特征。 这 幅图展 示一个 重点。 5 个质 蕴涵项 一起涵 盖了所 示的全 部值是 1 的点， 其 中包括 
由 4 个角 构成的 蕴涵项 （用 虚线表 示）， 而 该蕴涵 项的文 字积表 达式是 另外 4 个质蕴 涵项分 
别 具有文 字积戶 p 、 prs  ^  和 pFJ 。 

从目 前为止 的例子 来看， 我们 可能会 觉得， 要为该 图生成 逻辑表 达式， 应该要 将全部 5 个蕴 
涵项 取逻辑 OR。 不过， 片刻 思考后 你就会 觉得， 最大的 蕴涵项 是多 余的， 因 为所有 的点都 
已经 被其他 4 个质蕴 涵项涵 盖了。 此外， 它 也是唯 一一 个可 以消除 的质蕴 涵项， 因 为其他 4 个质 
蕴涵项 都各自 含 有一个 只由自 身涵盖 的点。 例如， 就是唯 一一 个涵盖 了第一 行第二 列那个 
点 的质蕴 涵项。 因此 下列表 达式就 是从图 12-17 所示 的卡诺 图得到 的所需 的析取 范式。 

pqr  +  pfs  +  pqr  +  p7J 


12.6.7  习题 

(1) 为变量 P、 9、 的以 下函数 画出卡 诺图。 

(a) 如果; ?、 g、 r 和 ■中有 一个、 两个或 三个为 TRUE, 则该 函数为 TRUE, 如 果没有 一个为 TRUE 或 
全 咅卩为 TRUE, 则该函 数不为 TRUE。 
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(b)  如果; ?、 g、 r 和 s 中 至多有 两个为 TRUE, 则该 函数为 TRUE, 如果有 三个或 四个为 TRUE ， 则该 
函 数不为 TRUE。 

(c)  如果; ?、 g、 r 和 s 中有 一个、 三个或 四个为 TRUE, 则该 函数为 TRUE, 如 果没有 一个为 TRUE 或 
有 两个为 TRUE, 则该函 数不为 TRUE。 

(d)  由 逻辑表 达式; 4  5 ■表 示的 函数。 

(e)  如果 所表 示的二 进制 数字的 值小于 10， 则该 函数为 TRUE。 

(2)  为习题 (1) 中的各 个卡诺 图找岀 除了最 小项之 外的蕴 涵项。 它们中 有哪些 是质蕴 涵项？ 为各 函数找 
岀涵盖 卡诺图 中所有 1 的质 蕴涵项 之和。 是 否要用 到所有 的质蕴 涵项？ 

(3)  证明， 布尔 函数析 取范式 中的每 个积都 是该函 数的蕴 涵项。 

(4)  * 大家 还可以 根据卡 诺图构 造合取 范式。 首 先要找 到形成 蕴涵项 的那种 矩形， 不过 这里矩 形中的 
点要 全部为 0, 而不是 全部为 1。 这样的 矩形可 以称为 “ 反蕴涵 项”。 我们可 以为各 反蕴涵 项构造 
一个对 所有除 反蕴涵 项所含 点之外 的点而 言值为 1 的文 字和。 对 各变量 x 而言， 如果 相应的 反蕴涵 
项 只包含 x  =  0 的点， 则 该文字 和中具 有文字 X， 而如果 相应的 反蕴涵 项中只 有那些 X  =  1 的点， 
它就具 有文字 元。 否则， 该 文字和 中不含 有涉及 x 的文 字。 

(5)  利 用习题 (4) 得到的 答案， 为习题 (1) 中的各 函数写 岀相应 的合取 范式。 要让合 取范式 中包含 尽可能 
少的文 字和。 

⑹** 在 4x4 的卡诺 图中， 有多少 构成蕴 涵项的 (a) lx 2  (b)2x2  (c)lx4  (d)2x4 矩形？ 假设 变量分 
别是 P、 g、 r 和 ^ 把它 们的蕴 涵项描 述成文 字积的 形式。 

12.7 重言式 

重言式 (tautology) 是指 不管其 命题变 量的值 如何， 其值都 为真的 逻辑表 达式。 对 重言式 
而言， 真值 表的所 有行， 或者说 卡诺图 中的所 有点， 都 具有值 1。 简 单的重 言式例 子包括 

TRUE 
P  +  P 

(p  +  q)  =  (p  +  pq) 

重言 式有很 多重要 用途。 例如， 假设 形如尽 这样 的表达 式是重 言式。 那么， 只要在 任何表 
达 式中出 现尽的 实例， 就可以 用馬替 换石， 而 得到的 表达式 仍然表 示相同 的布尔 函数。 

图 12-18a 展 示了包 含子表 达式石 的逻辑 表达式 F 所对应 的表达 式树。 而图 12-18b 则 是用尽 
代替 g 的相 同表达 式树。 原因 在于， 我们 知道两 棵树中 标记为 《的 节点， 也就 是对应 g 和馬的 
表达式 树的根 节点， 在两 棵树中 一定有 着相同 的值， 因为有 g = 尽。 而为两 棵树中 《以 上的部 
分 求值， 显 然会得 出相同 的值， 这样 就证明 了两棵 树是等 价的。 这 种等价 表达式 可以彼 此替换 
的能力 通俗点 讲就是 “以相 等换相 等”。 请 注意， 在 其他的 代数， 诸如 算术、 集合、 关系 或正则 
表 达式代 数中， 也 可以把 一个表 达式替 换为另 一个具 有相同 值的表 达式。 


图 12-18 展 示以相 等换相 等的表 达式树 
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♦ 示例 12.18 

考 虑逻辑 运算符 OR 的结 合律， 可 以将其 表示为 表达式 

((p  +  q)  +  r)  =  (p  +  (q  +  r))  (12.7) 

图 12-19 展示了 对应各 子表达 式的真 值表。 而标号 为£ 的最 后一列 就表示 整个表 达式。 不难 
看岀， 对应 £ 的每 一行都 具有值 1， 这说明 表达式 (12.7) 是重 言式。 这样 一来， 只要 我们看 到形如 
0  +  g)  +  r 的表 达式， 就 可以直 接将其 替换为 /7  +  (g  +  r) 。 请 注意， p、 q 和 r 可以 代表 任何表 达式， 
只要 两边的 ；?、 g 和 r 各自使 用了相 同的表 达式， 可以保 持一致 即可。 


P 

Q 

厂 

P  +  9 

(p  +  q)  +  r 

q  +  r 

P  +  (q  +  r) 

E 

0 

0 

0 

0 

0 

0 

0 

1 

0 

0 

1 

0 

1 

1 

1 

1 

0 

1 

0 

1 

1 

1 

1 

1 

0 

1 

1 

1 

1 

1 

1 

1 

1 

0 
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1 

1 

0 

1 

1 

1 

0 
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1 

1 

1 

1 

1 

1 

0 

1 

1 

1 

1 

1 

1 

1 

1 

1 

1 

1 

1 

1 

图 12-19 证明 OR 的结 合律的 真值表 


12.7.1 替 换原则 

正 如我们 在示例 12.18 中指 岀的， 当给岀 涉及某 些特定 命题变 量的法 则时， 该 法则不 仅适用 
于 字面上 的那些 变量， 而且 可以用 任何表 达式来 替换各 变量。 根 本原因 在于， 在 我们对 重言式 
的一 个或多 个变量 进行替 换后， 重言式 还是重 言式。 这 一事实 称为替 换原则 （substitution 
principle  )0  ® 当然， 我们必 须用同 样的表 达式替 换多次 岀现的 同一个 变量。 

♦ 示例 12.19 

逻辑 运算符 AND 的 交换律 可以通 过证明 逻辑表 达式; ^三职 是重言 式得到 验证。 要得到 这一法 
则 的一些 实例， 可以对 该表达 式进行 替换。 例如， 可以用 r  +  s 替换 并用 F 替换 得到 等价式 

(r  +  s)(r)  =  (r  )(r  +  s) 

请 注意， 这 里为每 个被替 换的表 达式都 加上了 括号， 以防因 为运算 符优先 级约定 而意外 改变运 
算符的 分组。 在该情 况中， r+s 两 边的括 号是必 要的， 但 F 两边的 括号则 可以省 略掉。 

还有其 他的替 换实例 如下。 可以用 r 替换 ;?， 而且 不替换 t 这样 就得到 叫三#。 可 以只留 
Tp, 把 9 替换 为常量 表达式 1  (TRUE)， 从而 得到; 7  AND  1  =  1  AND；?。 不过， 我们用 r 代替 式子中 
出现的 第一个 ；?， 并用 另一个 不同的 表达式 r+s 替换 第二个 也就 是说， 叫 = +  S) 不 是重言 
式 （如果 =  g  =  1 且 r  =  0 ， 它的 值就是 0)。 

如果考 虑表达 式树， 就可以 看到替 换原则 一直成 立的原 因了。 想象一 下对应 某个重 言式的 
表达 式树， 比如图 12-20 所 7K 的对应 7K 例 12. 19 中 重言式 的表达 式树。 因 为该表 达式是 重言式 ，所 
以我们 知道， 不 管为处 于叶子 节点处 的命题 变量指 定什么 真值， 根节 点的值 都为真 （只 要我们 
为 标号为 某给定 变量的 各个叶 子节点 指定相 同的真 值)。 


① 不应该 把替换 原则与 “以 相等换 相等” 弄混。 替换原 则只适 用于重 言式， 而在任 何表达 式中都 能够以 相等换 相等。 
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AND 


AND 


V 


Q 


Q 


P 


图 12-20 对应重 言式; 的表 达式树 


现在 假设用 具有表 达式树 的表达 式替换 /?， 并用 具有表 达式树 I 的表达 式替换 9， 一般来 
说， 我们会 为重言 式的每 个变量 选择一 棵树， 并用为 该变量 选择的 树替换 对应该 变量的 所有叶 
子 节点。 ® 这样 就得到 了一棵 类似图 12-21 所示的 新表达 式树。 当为新 树的变 量指定 真值时 ，作 
为树 7； 根节点 的各个 节点都 有相同 的值， 因为 任何这 样的节 点背后 都执行 了相同 的求值 步骤。 


AND  AND 


Tp  Tq  Tq  Tp 

图 12-21 对图 12-20 中变量 的替换 


一旦图 12-21 中 7； 和 7； 这 样的树 的根节 点完成 求值， 就得 到与图 12-20 所示的 原有的 树根节 
点处变 量相同 的值。 也就 是说， 不 管我们 为岀现 的那些 7； 算岀 什么样 的值， 它们 一定是 全部相 
同的， 我们 要取这 个值， 并将 其指定 给原有 的树中 标号为 的叶子 节点。 我们 还要为 g 进行 相同 
的 处理， 而 且一般 来说， 要 为出现 在原有 的树中 的任何 节点进 行这一 处理。 因为 原有的 树表示 
重 言式， 所以 可知为 该树求 值会在 根节点 得到值 TRUE, 而且 新构造 的树也 能在根 节点处 生成值 
TRUE。 因为 不管为 新树中 的变量 进行怎 样的值 替换， 以上 推理都 能保持 成立， 所 以可以 得出结 
论： 由 新树表 的 表达式 也是重 言式。 


12.7.2 重言 式问题 

重 言式问 题就是 测试某 给定逻 辑表达 式是否 等价于 TRUE， 也就 是说， 测试该 表达式 是否为 
重 言式。 有一种 简单方 式可以 解决该 问题。 为该 表达式 构建真 值表， 其中 每一行 对应表 达式中 
各变 量的一 种真值 赋值。 然后为 该表达 式的表 达式树 中各个 内部节 点创建 一列， 并按照 合适的 
从下 到上的 次序， 针 对变量 的各种 真值赋 值为各 个节点 求值。 当且 仅当对 每种真 值赋值 而言整 
个表 达式的 值都是 1  (TRUE) 时， 该表达 式是重 言式。 7K 例 12.18就展亦了这 一 ■过 程。 

12.7.3 重 言式测 试的运 行时间 

如果 表达式 有&个 变量和 〃个运 算符， 那么这 种真值 表就有 2A 行和 《 列需要 填写。 因 此我们 
可以预 期这种 算法的 简单实 现要花 0(2、） 的 时间。 这 一时间 对只有 两三个 变量的 表达式 来说并 
不长， 即 便是对 20 个变量 来说， 用计算 机也只 需要几 分钟就 能完成 测试。 不过， 对 30 个 变量而 


①作为 特例， 为某 个变量 选 择的树 可能是 标号为 的单个 节点， 就和 没有对 X 进行 替换 一样。 
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言， 有 10 亿行， 就算是 使用计 算机， 也几乎 没法完 成这一 测试。 这 一结果 是用到 指数时 间算法 
的典型 下场。 对较小 的实例 来说， 一 般看不 岀什么 问题。 但 随着问 题实例 变大， 突然间 我们会 
发现， 即 使有着 速度最 快的计 算机， 也不 可能在 可以接 受的时 间内解 决这个 问题。 


图 12-22  P 是可 在多项 式时间 内 解决的 问 题族， 7VP 是可 在非 确定多 项式时 
间内解 决的问 题族， iVPC 则是 7VP 完全 问题族 


固 有的难 解问题 

重言 式问题 “五是 否为重 言式” 看 似天生 是指数 时间的 问题。 也就 是说， 如 果表达 式五中 
有灸个 变量， 所有 已 知解决 重言式 问题的 算法的 运 行时间 都是 的 指数 函数。 

存在 这样一 类称为 NP 完全 问题的 问题， 其中包 含了很 多重要 的优化 问题， 而没人 知道如 
何 在少于 指数时 间的时 间内解 决这些 问题。 很多 数学家 与科学 家经过 长时间 的艰难 尝试， 试着 
为 这些问 题中至 少一个 问题找 到运行 时间少 于指数 时间的 算法， 不过这 样的算 法还没 被找到 
过， 而 很多人 现在怀 疑根本 不存在 这样的 算法。 

可满足 性问题 ( satisfiability  problem  ) 就是 一 个 经典的 NP 完全 问题， 这个问 题是说 “是否 
存在一 种真值 赋值让 逻辑表 达式为 真？” 可满 足性问 题与重 言式问 题有着 密切的 关系， 而且就 
像重言 式问题 一样， 对 可满足 性问题 来说， 也 没有比 循环经 历所有 可能的 真值赋 值好更 多的解 
决方 案了。 

要么 所有的 NP 完全 问题都 具有少 于指数 时间的 解决 方案， 要么 所有的 NP 完 全问题 都没有 
这样 的解决 方案。 因此各 NP 完 全问题 看似需 要指数 时间这 一事实 让我们 更加相 信这些 问题天 
生 是指数 时间的 问题。 有很强 的迹 象表明 这种简 单的 可满足 性测试 就是最 好的做 法了。 

顺便提 一句， NP 代表 “非 确定多 项式” （ Nondeterministic  Polynomial  )。 粗略 地讲， “非确 
定” 就 意味着 “ 猜测正 确的能 力”， 正如 10.3 节 中讨论 过的。 如果为 针对某 个大小 为《的 实例的 
解 决方案 给出一 次 猜测， 我们 可以 在多项 式时间 （ 也 就是对 某常数 c 而言 的时间 //) 内 验证该 
猜 测是正 确的， 就 说该问 题能在 “非 确定多 项式时 间内解 决”。 

可满足 性是这 种问题 的一个 例子。 如果 为变量 给出一 组声明 （或 者说 猜测） 为可以 使表达 
式五 得到值 1 的真值 赋值， 我们 可以将 赋值代 入操作 数为五 求值， 并 在至多 为五的 长度的 二次方 
的 时间内 验 证该表 达式是 否得到 满足。 

像可 满足性 问题这 样可以 通过猜 测加上 多项式 时间的 验证来 “ 解决” 的这类 问题称 为^ 
问题。 有一些 7VP 问题 其实是 相当简 单的， 不经 过猜测 就可以 解决， 而且 只需要 花输入 长度的 
多 项式的 时间。 不过， 有很多 M5 问题被 证实非 常难， 而 这些问 题就是 NP 完全 问题。 （不 要把这 
里表示 “ 这类问 题中最 难”的 “完 全”， 与之前 表达式 “能表 示每个 布尔函 数”的 “运 算符完 
全集” 中的 “ 完全” 弄混 了。） 
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在 多项式 时间内 不通 过猜测 就可以 解决的 问 题族通 常称为 P。 图 12-22 展示了 P、 iVP 和 NP 
完 全问题 之间的 关系。 如 果任何 NP 完全 问题在 尸中， 取 P=NP ， 我们会 非常怀 疑这种 情况， 
因 为所有 已知的 NP 完全 问题以 及一些 其他的 7VP 问题， 都不会 出现在 尸中。 没人相 信重言 式问题 
会在 iVP 中， 不过它 的难度 不低于 中的任 何问题 （被 称为 ^难 题）， 而且 如果重 言式问 题在/ ^ 
中， 那么有 P  =  NP 。 


12.7.4  习题 

(1)  以 下表达 式中哪 些是重 言式？ 

(a)  pqr  p  +  q 

(b)  ((p  q)(q  r)) 

(c)  (p^q)^p 

(d)  (p  =  {q  +  r))^{q  ^  pr) 

(2)  * 假 设有一 种为逻 辑表达 式解决 重言式 问题的 算法， 说 明如何 用这种 算法实 现下列 目的。 

(a)  确定两 个表达 式是否 等价。 

(b)  解决 有关可 满足性 的问题 （见 上文 附注栏 “固 有的难 解问题 ”）。 

12.8 逻辑表 达式的 一些代 数法则 

在本 节中， 我们 将列举 一些实 用的重 言式。 在 各种情 况中， 我们都 只陈述 法则， 而 将重言 
式的验 证工作 留给读 者通过 构造真 值表来 完成。 

12.8.1 等价 的法则 

首 先 要从一 些与等 价如何 起效有 关 的结论 开始。 大 家应该 注意到 等价性 在这里 的双重 身份。 
它 是我们 在逻辑 表达式 中使用 的众多 运算符 之一。 不过， 它 也是表 示两个 表达式 “ 相等” 并能 
互相 替换的 符号。 因此 形如尽 = 馬 这样的 重言式 表明了 一些与 尽和尽 有关的 信息， 即利 用“相 
等可以 由相等 替换” 的 原则， 它 们在更 大的表 达式中 是可以 相互替 换的。 

此外， 我 们可以 利用等 价证明 其他的 等价。 如 果有一 列表达 式尽、 E2 、…、 Ek， 满足 每个表 
达式都 能通过 相等换 相等的 替换从 前一个 表达式 得到， 那么 在用相 同的真 值赋值 为这些 表达式 
求 值时， 它 们会得 到相同 的值。 这样 一来， 尽 = 尽一 定是重 言式。 

12.1 等 价的自 反性： p 三 p 。 

正如我 们要陈 述的所 有法则 一样， 替换原 则是适 用的， 这样可 以用任 意表达 式代替 因此 
该 法则表 明任何 表达式 都是与 自身等 价的。 

12.2 等价的 交 换律： (P 三 q) 三 (q 三 P) 。 

非正式 地讲， 当且 仅当彳 等价于 ^ 时有; ? 等价 于彳。 根 据替换 原则， 如果 任一表 达式巧 与另一 
表 达式尽 等价， 那么尽 就等价 于尽。 因此 尽和尽 是可以 互相替 换的。 

12.3 等价的 传递性 ： （(;？ 三  q)AND(q  =  r))  4  (；? 三  r) 。 

非正式 地讲， 如果 p 等价于 q， 而且 q 等价于 r， 那么 p 就等 价于 r。 这条 法则具 有一个 重要的 
推论， 如果我 们得出 尽三尽 和馬三 尽是重 言式， 那么 巧三尽 也是重 言式。 
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I2.4 否定的 等价： ip 三 q) 三 三 D  o 

当 且仅当 两个表 达式的 否定等 价时， 这两 个表达 式是等 价的。 

12.8.2 类 似算术 的法则 

在算术 运算符 +、 X 和一 元减号 与逻辑 运算符 OR、 AND 和 NOT 之间存 在一种 类比。 因 此以下 
法则 应该不 会让大 家感到 意外。 

12.5  AND 运算的 交 换律： pq 三 qp  0 

非正 式地讲 就是， 只有在 为 真时， ； ^才 为真。 

12.6  AND 运算的 结 合律： p(qr)  =  (pq、r 。 

非正式 地讲， 要为 3 个变量 （或表 达式） 的 AND 分组， 既 可以先 取前两 个变量 （或表 达式） 
的 AND, 也 可以先 取后两 个变量 （或表 达式） 的 AND。 此外， 加 上法则 12.5, 我们 可以证 明任意 
一 系列命 题或表 达式的 AND 都可 以按照 我们的 意愿随 意排列 和分组 —— 结果 都是相 同的。 

12.7  OR 运 算的交 换律： (p  +  q、5(q  +  p、0 

12.8  OR 运 算的结 合律： （/?  +  (g  +  r)) 三 ((/?  +  0  +，) 。 

这 一法则 和法则 12.7 表 明了任 何表达 式集的 OR 都可 以随意 分组。 

12.9  AND 对 OR 舌 勺分酉 己律： p{q  +  r) 三 (pq  +  pr) 。 

也就 是说， 如果 我们希 望为; ? 和 两个命 题或表 达式的 OR 取 AND, 既可 以先取 OR, 也可以 对;? 
与 各表达 式先取 AND, 得 到的结 果是相 同的。 

12.10  1  (TRUE) 是  AND  舌勺单 位元： ANDO 三； 7。 

请 注意， （1  AND；?)  4 也是重 言式。 我们不 需要说 岀它， 因为它 可由替 换原则 和之前 的法则 
得出。 也就 是说， 可以在 12.5  (AND 的结 合律） 中用 1 替换 并用; 9 替换 从 而得到 重言式 (1AND 
p)=  (p  AND  1)0 然后， 应用 12.3  (等价 的传递 性）， 就得到 (1 厕即)三户。 

12.11  0  (FALSE) 是 OR  的单 位元： (p  OR  1) 三 

同 样地， 可以 利用与 12.10 如出一 辙的论 证， 得出 (0OR 妁 三;?。 

12.12  0 是 AND 的 零元： (pmD  0) 三 0。 ① 

回 想一下 10.7 节， 运算符 的零元 是指这 样一个 常数， 我 们对该 常数和 任意值 应用该 运算符 
所得 到的值 都是该 零元。 请 注意， 在 算术运 算中， 0 是 x 的零 元， 但 + 是没 有零 元的。 不过 ，我 
们 会看到 1 是 OR 的 零元。 

12.13 双重 否定的 抵消： (NOT  NOT  p)=p0 


算 术和逻 辑运算 符类比 的利用 

我们使 用对应 AND 和 OR 的 简写符 号时， 往 往可以 假装自 己是 在处理 乘法和 加法， 正 如我们 
在 法则 12.5 到 12. 12 中 所使 用的。 这是 种优势 ，因为 我们 对 相应的 算术运 算法则 是 非常熟 悉的。 
因此， 大家 应该能 很快用 + /w  +  gr  +  w 或 7(5  +  r)  +  (r  +  s);? 来替换 (/?  +  g)(r  +  s) 。 

更难 也是更 需要练 习的部 分 就是应 用那 些与算 术 运算不 相似 的法则 。比 如德摩 根律和 OR 
对 AND 的 分配律 。例 如， 用 （/?  +  r)(p  +  s)(q  +  r)(q  +  s) 替换 +  ns1 是可 以的， 但 要看出 这 是通过 
3 次应用 OR 对 AND 的分 配律， 并利 用交换 律和结 合律得 到的， 需要 费一些 思量。 


①当然 (0  AND  p) 三 0 也 成立， 我们之 后不会 再提到 那些结 合律的 结果。 
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12.8.3  AND 和 OR 与 加和乘 的区别 

还有很 多法则 表现岀 了 AND 和 OR 与算术 运算符 X 和 + 的区 别， 这里 要列举 一些。 

12.14  OR 对 AND 的分 配律： （/?  +  #) 三 ((/?  + +，)) 。 

就像 AND 可以对 OR 分配 那样， OR 也 可以对 AND 分配。 请 注意， 相似 的算术 形式， 
x  +  yz  =  (x  +  y)(x  +  z)  一 般而言 是不成 立的。 

12.15  1  是 OR 的 零元： (1  OR  p)  =  \0 

请 注意， 相 似的算 术形式 l  +  x  =  l  — 般来说 是不成 立的。 

12.16  AND 的幂 等性： pp 三 p 。 

回想 一下， 当运算 符应用 到某相 同值的 两个副 本时， 得 到的结 果还是 该值， 就说该 运算符 
是 幕等白 勺。 

12.17  OR  的幂 等性： p  +  p  0 

请 注意， X 和 + 都不 是幂 等的。 也就 是说， 一 般来说 XXX  =  JC 和 1  +  1  =  1都 是不成 立的。 
12.18 吸 收律。 

这 一法则 有两个 版本， 取决于 我们想 消除的 是多余 的积还 是多余 的和。 

(a)  O  +  pq)  =  p 

(b)  p(p  +  q)  =  p 

请 注意， 如果在 (a) 中 用任意 文字积 替换; ?， 并 用另一 个文字 积替换 I 就可 以说， 在 析取范 
式中， 可以 消除那 些具有 其他某 个积所 含文字 之超集 的积。 较小的 集合就 被吸收 到超集 之中。 
在 (b) 部分中 ，我们 对合取 范式作 出同样 的说明 ，可 以消 除那些 是其他 某个和 中文字 之超集 的和。 
12.19 某些 否定的 消除。 

(a)  p(p  +  q)  =  pq 

(b)  p  +  pq  =  p  +  q 

请 注意， （b) 就是 我们在 12.2 节中解 释莎莉 的条件 为何能 替换山 姆的条 件时用 到过的 法则。 

12.8.4 德 摩根律 

还有两 条法则 让我们 可以把 NOT 压入 AND 和 OR 的表达 式中， 得 到一个 由各命 题变量 的否定 
组 成的表 达式。 得 到的表 达式是 应用到 文字的 AND-OR 表 达式。 从直觉 上讲， 如果们 为具有 AND 
和 OR 的 表达式 取反， 就 可以把 否定沿 着表达 式树向 下压， 随着 该过程 “ 翻转” 运 算符。 也就是 
AND 会变成 0R， 反之 亦然。 最后， 否定到 达叶子 节点的 位置， 并 停留在 那里， 除 非它们 遇到否 
定 文字， 在 这种情 况下， 就要利 用法则 12.13 消 除两次 否定。 在构造 新表达 式时， 一定要 注意加 
上 恰当的 括号， 因为 在交换 AND 和 OR 时运算 符的优 先级改 变了。 

这些 基本规 则就叫 “ 德摩根 律”， 它们 是以下 两个重 言式。 

12.20 德 摩根律 

(a)  NOT  (pq)  =p  +  q 

(b)  NOT  (p+q)  -  pq 

⑻部分 说明， 只有 在;? 和 ^ 之中 至少有 一个为 假时， 夕和^ 才都不 为真。 而 (b) 部分 说明， 当且 
仅当 和 7 都为 假时， ；?和9 才都不 为真。 我们 可以将 这两条 法则一 般化， 使 其按照 如下方 式应用 
到任意 数量的 命题变 量上。 
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(C)  (  NOT (外 户2 … 凡' ) ) 三 （巧 + 瓦 + … + 氕） 

(d)  (not(A  +  p2 + +  pk))  =  {pxp2 … Pk) 

例如， （d) 说明 当且仅 当一系 列表达 式全为 假时， 它 们才一 个都不 为真。 

♦ 示例 12.20 

我们 已经在 12.5 和 12.6 节 中了解 到了如 何为任 意逻辑 表达式 构造析 取范式 。假 设要从 任意可 
以 写成尽 + 尽 + … + 馬， 其 中各馬 都是 文字的 AND 的 表达式 E 开始。 就可 以构造 NOTE 的 合取范 
式， 首先有 

notC^  +五2  +  •..  + 馬） 

然后 应用德 摩根律 (d)， 得到 

( NOT ⑹ ) ( NOT ⑹) … ( NOT ⑹）  (12.8) 

现 在设尽 是文 字积足 其 中各; T 要么是 变量， 要么是 变量的 否定。 那 么我们 可以对 
NOT (尽 ）， 将 其变为 


兄1  +  I  + … + 又 ij、 

如果某 个文字 Z 是否定 变量， 比方说 是歹， 那么利 用法则 12.13, 消 除双重 否定， 叉就应 该被替 
换 成变量 g 本身。 在进 行所有 的改变 之后， 式 (12.8) 就 变成了 文字和 的积。 

例如， +  就是 只有在 时 才为真 的析取 范式， 也就 是说， 它 可以视 作利用 AND、 OR 
和 NOT 对等价 进行的 定义。 以下 公式是 上式的 否定， 只有在 r 和 s 不等 价， 也就是 r 和涓 彳 好 只有一 
个为 真时才 为真。 

NOT  (  ra  +  r  5" )  (12.9) 

现 在对德 摩根律 (b) 进行 替换， 用 ^ 替换; ?， 并 用斤替 换彳。 那么 (b) 的 左边就 成了式 (12.9)， 而根 
据替 换原则 可知， 式 (12.9) 等 价于对 (b) 进行 相同替 换后的 右边， 也就是 

NOT ㈣ AND  NOT(  7J  )  (12.10) 

现在 我们可 以应用 (a)， 其中 用潜换 并用 4 换 将 NOT(rs) 转换成 F  +  i。 同样， ⑻告诉 我们， 
NO^Fy^NO^O+NOTp) 是等 价的。 不过 NOT(F) 就 等同于 NOT(NOT(r)) ， 也就 等价于 r， 因为 
双重 否定是 可以抵 消的。 同样 NOT(I) 也可 以被 S 替代， 因此式(12.10)等价于(7  +幻0'  +  4。 这是 
表示 “r 和 s 刚好只 有一个 为真” 的合取 范式。 粗略 地说， 它表示 “r 和 s 至少 有一个 为假， 而且 r 
和 ^ 至少有 一个为 真。” 显然， 这 种情况 只有在 r 和 s 中刚 好有一 个为真 时才会 发生。 

12.8.5 对偶 性原理 

在 审视本 节所介 绍的法 则时， 我们 会注意 到一个 奇特的 现象： 这些等 价性似 乎都是 成对出 
现的， 只不过 其中的 AND 和 OR 角色 互换了 而已。 例如， 法则 12.19 的⑻ 部分和 (b) 部 分就是 这样的 
一 '对， 而法则 12. 9 和 12. 14 也是 这样的 一 '对， 后 者就是 两条分 配律。 在涉 及常数 0 和 1 时， 它们也 
必须 互换， 就像在 12.10 和 12.11 这两条 有关单 位元的 法则中 那样。 

在德摩 根律中 可以找 到这一 现象的 解释。 假 设从重 言式尽 = 尽 开始， 其中 岑和馬 都是涉 
及 运算符 AND、 OR 和 NOT 的表 达式。 根 据法则 12.4， 有 NOT (式 ） = NOT( 五2  ) 也是重 言式。 现 在应用 
德摩根 律把否 定压过 AND 和 OR。 我们要 做的， 就是 将每个 AND  “ 反转” 为 OR， 反之 亦然。 而且 
我们会 把否定 下移到 各操作 数处。 如 果遇到 NOT 运 算符， 就直接 把这个 “移 动的”  NOT 移到该 
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NOT 运算符 下方， 直 到遇到 另一个 AND 或 OR。 例外就 是当我 们遇到 否定的 文字， 比方说 户时。 
然后， 我们 把这个 移动的 NOT 与 已经存 在的那 个结合 起来， 留下 操作数 p。 作为 特例， 若 移动的 
NOT 遇 到常数 0 或 1 ， 就要为 该常数 取否， 也就是 (NOT  0) 三 1 和 (NOT  1) 三 0。 

♦ 示例 12.21 

我们 来考虑 重言式 12.19(b)。 首先要 为两边 取否， 这 样就得 到了图 12-23a 所示 的树。 然后把 
否定压 过等价 两边的 OR， 将它 们变成 AND,  NOT 符号 就出现 在两个 OR 的 各参数 之上， 如图 12-23b 
所示 。新的 NOT 中有 3 个 在变量 之上， 所以它 们的移 动就停 止了。 而在 AND 之上 的那个 会将该 AND 
反转成 OR ， 并使 NOT 出现在 它的两 个参数 之上。 这 样右边 的参数 就成了 NOT  而左边 的参数 NOT 
户就成了船于船于；?， 也就是 p。 得到的 树如图 12-23 C 所示。 

图 12-23c 的树 表示表 达式歹 0?  +刃= 歹歹。 要 让该表 达式变 成法则 12.19(a) 的 形式， 就 必须为 
这 些变量 取否。 也就 是说， 要用 户替换 ;?， 并用 f 替换& 当 消除双 重否定 之后， 剩下的 就刚好 
是法则 12. 19 ⑻。 


NOT  q 
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(c) 最后的 表达式 
图 12-23 构 造对偶 表达式 
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12.8.6 涉 及蕴涵 的法则 

这 里还有 若干实 用的重 言式， 给出了 ^ 运算 符的 属性。 

12.21  {p  ^)AND(g  4  p~) 三 (p  三  q)  0 

也就 是说， 当前仅 当两个 表达式 互相蕴 涵时， 它 们是等 价的。 

12.22  (p  三  q)  4 4  q) 。 

两个 表达式 的等价 表明其 中一个 蕴涵另 一个。 

12.23 蕴 ■涵 的传递 性： （(/?4g)AND(g4r))4Q9  4r) 。 

也就 是说， 如果 蕴涵 而且 g 蕴涵 r， 那 么有; ? 蕴涵 r。 

12.24 可以把 蕴涵用 AND 和 OR 表示 岀来， 最简单 的形式 如下。 

⑻ (p^q)  =  (p  +  q)  o 

我们会 看到， 很多情 况下， 要 处理的 表达式 会形如 “如 果这个 而且这 个而且 …… ， 那么那 
个”。 例如， Prolog 语言 和很多 “人工 智能” 语 言都依 赖这种 形式的 “规 则”。 这 些规则 通常会 
写成 (AiV •.凡 ）40 。 通 过以下 等价， 它们可 以只用 AND 和 OR 表示 岀来。 

(b)  0\?2".凡47)三（历+户2  +  ."+歹„+0。 

也就 是说， 只要 9 为真， 或者 这些； ? 中有 一个 或多个 为假， 该等 价的左 边和右 边就都 为真， 
否则这 两边都 为假。 

12.8.7 习题 

(1)  通过 构建真 值表， 验 证法则 12.1 到 12.24 都是重 言式。 

(2)  可以 用表达 式替换 重言式 中的任 何命题 变量， 并 得到另 一个重 言式。 在法则 12.1 到法则 12.24 这些 

重言 式中， 用 x+y 替换; 7,  替换+ 并用 7 替换 r， 得到 新的重 言式。 如 果需要 的话， 不要 忘了给 

新换上 的表达 式加上 括号。 

(3)  证明： 

(a)  A  +  A  + … +  A, 与 A 任意次 序的和 （ 逻辑 OR  ) 等价。 

(b)  AAA, A 任意次 序的积 （逻辑 AND) 等价。 

提示：  2.4 节中 为加法 展示过 相似的 结果。 

(4)  * 利 用本节 给定的 法则， 把 每一对 表达式 中的第 一个表 达式变 形为第 二个。 为 了减少 工作量 ，在 
使用 类似算 术法则 的法则 12.5 到 12.13 时， 可以省 略使用 它们的 步骤。 例如， AND 和 OR 的交 换律和 
结 合律是 可以假 定的。 

(a)  ^pq  +  rs  变形为  Cp  +  r)(p  +  s)(q  +  r)(q  +  s)  o 

(b)  把 柯 +  /?々 变 形为〆 g  +  r) 。 

(c)  把 柯+ 河 +  m  +  M 变形为 1  (该 变形需 要用到 12.9 节介绍 的法则 12.25  ) 。 

(d)  把 柯 4  r  变形为 (q  —>  r)  +  (q  —>  r) 。 

(e)  把  NOT(pq  r) 变形为  pqF 。 

(5)  * 利用之 前的法 则证明 吸收律 12.18 ⑻和 12.18(b), 也 就是说 明只使 用法则 12.1 到 12.17 就 可以把 
P  +  pg 变 形为; ?， 并可 以把; ?(户+的 变形为 P。 

(6)  应 用德摩 根律， 将以下 表达式 变形为 NOT 只作 用于命 题变量 （也 就是 NOT 只出 现在文 字中） 的表 
达式。 

(a)  NOT(pq  +  pr) 

(b)  NOT(NOT  j!7  +  ^(NOT(r  +  5r))) 

⑺* 利用基 本法则 12.20 ⑻和 (b), 通过对 k 的归 纳证 明一般 化的德 摩根律 12.20(c) 和 (d)。 然后， 通过描 
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述对应 各表达 式及其 子表达 式的真 值表的 样子， 粗 略验证 这一 一般化 法则。 

(8)  * 找岀 本节中 相互对 偶的法 则对。 

(9)  * 通过 对《 的归 纳证 明法则 12.24(b)。 

(10)  * 通过描 述对应 表达式 及其各 子表达 式具有 2H 行的真 值表， 证 明法则 12.24(b) 成立。 

(11)  使 用吸收 律以及 AND 和 OR 的交换 律和结 合律， 简 化以下 表达式 

(a)  wx  +  wxy  +  ~zxw 

(b)  (w  +  x){w  +  v  +  z)(w  +  x  +  v)(x) 

(12)  * 通 过给岀 一些特 殊的数 字使得 类比的 等式不 成立， 表 明法则 12.14 到 12.20 的算 术类比 是不成 立的。 

(13) * 如 果从那 些只含 AND、 OR 和 NOT 运算符 的逻辑 表达式 开始， 可以把 所有的 NOT 向 下压， 直到 NOT 
全部紧 邻命题 之上， 也就 是说， 表 达式是 文字的 AND 和 OR。 证明 我们能 做到这 一点。 提示： 只要 
看到 NOT， 要么 它紧邻 另一个 NOT 之上 （这种 情况下 可以根 据规则 12.13 抵消 这两个 NOT) ， 要么 
它在命 题之上 （ 这种情 况下命 题就得 到满足 了）， 再或 者它在 AND 和 OR 之上 （ 这种 情况下 可以利 
用德 摩根律 将其压 到下一 层）。 不过， 想通过 对诸如 标号为 NOT 的节 点高度 之和这 样显见 的“大 
小” 度 量进行 归纳， 证 明最终 可以得 到所有 NOT 都 在命题 之上的 等价表 达式， 是不可 能行得 通的。 
原因 在于， 在利 用德摩 根律将 NOT 向下 压时， 它 会变成 NOT， 这个 和可能 增加。 为 了证明 最终可 
以得 到所有 NOT 都 在命题 之上的 等价表 达式， 需要找 到一种 合适的 “ 大小” 度量， 在把 NOT 压到 
AND 或 OR 之下 的方向 上应用 德摩根 律时， 这个大 小度量 总是递 减的。 找 到这样 的大小 度量， 并证 
明该 声明。 

12.9 重言 式及证 明方法 

在 12.6 到 12.8 这 3 节中， 我们已 经看到 了逻辑 的一个 方面： 它作 为设计 理论的 用途。 在 12.6 
节中， 我 们看到 如何利 用卡诺 图为给 定的布 尔函数 设计表 达式， 而在第 13 章中我 们会看 到这种 
方法 论是如 何用到 开关电 路设计 中的， 而 开关电 路是构 建计算 机和其 他数字 设备的 基础。 12.7 
节和 12.8 节为 我们介 绍了重 言式， 它们可 以用来 简化表 达式， 因此 在为给 定布尔 函数设 计优质 
表达 式时， 重言式 是另一 种重要 工具。 

逻辑 的第二 个重要 用途将 在本节 中得到 体现。 当人 们推理 或证明 数学命 题时， 他们 会用到 
很多技 巧来推 进自己 的 论证， 这 些技巧 包括： 

(1)  情况 分析； 

(2)  换质 位法； 

(3)  反 证法； 

(4)  归 约法。 

本节 中要定 义这些 技巧， 展示 它们各 自是如 何应用 到证明 中的。 我们 还会展 示如何 通过命 
题逻辑 中的某 些重言 式来验 证这些 技巧。 

12.9.1 排中律 

首 先要介 绍一些 表示与 如何进 行推理 有关的 基本事 实的重 言式。 

12.25 排 中律： （户+刃三1 是重 言式。 

也就 是说， 某事 物要么 为真， 要么 为假， 不存 在中间 状态。 


♦ 示例 12.22 

作 为法则 12.25 的 应用， 同 时也利 用到我 们目前 已经了 解的若 干其他 法则， 可 以证明 12.6 节 
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中用过 的法则 Cpg  + 网 0 。 g 。 首先根 据法则 12.1， 等 价的自 发性， 用 1  AND  ^ 替换; 9, 就有 

(1  AND  q)  =  (1  AND  q) 

接着， 通 过法则 12.25, 可以 “以相 等换相 等”， 用;?  + 歹替 换上式 左边的 1， 因此 

({p  +  p)q)  =  {\  AND  q) 

是重 言式。 对该 等价的 右边使 用法则 12.10， 用 q 替换 lANDg。 然后对 左边， 我 们使用 12.9,  AND 
对 OR 的分 配律， 进而利 用法则 12.5,  AND 的交 换律， 从而证 实 左边与 网+ ㉛ 等价。 因此有 

(pq +pq)  =  q 

这正 是我们 想要的 。 

将排 中律一 般化， 就得到 了名为 “情况 分析”  ( case  analysis  ) 的证明 技巧， 其中我 们想证 
明 某表达 式五。 我 们会取 另一个 表达式 F, 及 其否定 NOT  F, 并证明 F 和 NOT  F 都蕴 涵五。 因为 
定 要么为 真要么 为假， 所 以我们 就得岀 了五。 情 况分析 的正式 依据是 如下重 言式。 

12.26 情 况分析 ： （(/?  4  g)AND(^  4  q)) 三  q 。 

也就 是说， 这 两个实 例是在 为真和 为 假时发 生的。 如果 g 被两 个实例 蕴涵， 那么彳 一定为 
真。 我们 把证明 12.26 可由 12.25 和 其他已 证明的 法则得 岀这一 任务留 作本节 习题。 

12.27  pp  =  0 

命题 及其否 定不可 能同时 为真。 这 一法则 在使用 “反 证法” 时显 得至关 重要。 我们 很快就 
会 在法则 12.29 中 讨论这 一证明 技巧， 而且在 12.11 介绍分 解证明 时也要 提及。 

12.9.2 换 质位法 

有时候 我们想 要证明 p^q 这样的 蕴涵， 却发 现证明 q^p 这一 被称为 p^q 的质 位变换 
命题 的等价 表达式 要更加 简单。 这一原 则可以 用如下 法则公 式化。 

12.28 质位变 换法则 （ contrapositive  law  ):  (p  4  q) 三 (豆 p) 。 

♦ 示例 12.23 

我 们来考 虑一个 简单的 例子， 向大家 展示可 以如何 利用质 位变换 法则。 这个 示例还 表现了 
命题 逻辑在 证明过 程中的 局限。 逻辑 只能完 成部分 工作， 允 许我们 在不参 考命题 本身含 义的情 
况 下对命 题进行 推理。 不过， 要得到 完整的 证明， 通常还 必须指 定一些 参数， 让 它们指 代各项 
的 含义。 对本例 来说， 我 们需要 知道像 “质 数”、 “奇 数”和 “ 大于” 这样 与整数 有关的 概念的 
含 义是 什么。 

我 们要考 虑下面 3 个与 正整数 X 有关 的命题 


a 

“x>2” 

b 

“X 是 质数” 

c 

“X 是 奇数” 

我们想 要证明 的定 理就是 ab^c  , 也就是 

命题 “如果 X 大于 2 且是 质数， 那么 x 是奇数 

首先要 应用已 经了解 的一些 法则， 将 表达式 M  4  c 变形 为更方 便证明 的 等价表 达式。 首先， 
我 们要利 用法则 12.28 将 其变成 质位变 换命题 的形式 5  4  NOT(M) 。 然后 利用德 摩根律 12.20(a) 
将 NOT 变形为 泛  +  F。 也就 是说， 可以把 该定理 变形为 5  +  换句 话说， 需 要证明 
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命题 “如果 X 不是 奇数， 那么 它要么 不大于 2, 要 么不是 质数， 

我们 可以把 “不是 奇数” 替换为 “是偶 数”， “ 不大于 2”  替换成 “小 于等于 2”， 并把 “不是 质数” 
替换为 “是合 数”。 因 此要证 明的是 

命题 “如果 X 是 偶数， 贝 IJ 要么有 jc<2, 要么有 x 是合数 。” 

现 在已经 将命题 逻辑应 用到极 致了， 接下 来必须 开始谈 论这些 项的含 义了。 如果 x 为偶 数, 
那 么对某 个整数 y 而言有 x  =  2;；， 这 也就是 jc 为 偶数的 含义。 因 为在该 证明中 假设了 X 为正 整数， 
所 Illy 一 定 是大于 等于 1 的。 

现在可 以使用 情况分 析了， 分 别考虑 7  =  1 和7>1 这两种 情况， 因 为我们 论证过 J 彡 1， 所 
以这 是仅有 的两种 情况。 如果 j  =  l， 那么 x  =  2， 这样就 证明了  如果 j；>l ， 那么 x 是 2 

和: F 这两个 都大于 1 的整数 的积， 这 就表示 JC 是 合数。 因此 我们证 明了， 如果 JC 是 偶数， 那 么要么 
有 x 彡 2  (在 7  =  1 情况 下）， 要么有 X 是合数 （在〆 >1 的情况 下）。 

12.9.3 反证法 

我们经 常不是 “ 直接” 证 明表达 式五， 而是 利用更 简单的 方式， 首 先假设 NOT 艮 然 后利用 
矛盾 （也 就是 表达式 FALSE) 进行 证明。 这种 证明的 依据是 以下重 言式。 

12.29 反 证法： (p  4  0) 三  p 。 

粗略 地讲， 如果 由户可 以得出 0, 也就 是得出 FALSE 或引起 矛盾， 就 和证明 是一 样的。 
这一 条法则 其实是 由其他 法则得 出的。 如果 用歹替 换法则 12.24 中的; ?， 用 0 替代 其中的 t 就得 
到如 下等价 

(戶 4  0) 三 (NOT (歹 ）+  0) 

根 据法则 12.13, 双重否 定可以 抵消， 于是就 可以把 NOT (刃替 换为; ?， 这样 就有了 

(^^0)  =  (/?  +  0) 

而法则 I2. 1 1 告诉 我们， 0? + 0) 三; 9 ， 进一步 替换就 得岀了 

(p^0)  =  p 


♦ 示例 12.24 

现 在重新 考虑一 下示例 12.23 中 的命题 a、 乂  c， 在 这里例 子中我 们假设 x 是正 整数， 并分别 
断言 x>2 、 X 是 质数、 x 是 奇数。 我们想 要证明 定理肋 ， 因 此可以 用该表 达式替 换法则 12.29 
中的 那 么歹— >0 就成了 （NOT(a 办 4c))->0 。 

如果对 第一个 蕴涵使 用法则 12.24, 就得到 

(NOT(NOT(tt^)  +  c))^0 

对 里层的 NOT 应用德 摩根律 就得到 (NOT 反 +  f  +  c))40。 再次利 用德摩 根律， 并 两次利 用法则 
12. 13 消 除双重 否定， 就将该 表达式 变成了 

这 就是命 题逻辑 所能做 到的极 限了， 现在必 须进行 与整数 有关的 推理。 我们 必须从 a、 6 和 J 
开始， 并得出 矛盾。 换句 话说， 首先 要假设 x>2,  x 是 质数， 而且 X 是 偶数， 并一 定要从 这些假 
设 中得出 矛盾。 

因为 X 是 偶数， 所 以可以 说对某 个整数 y 而言有 x  =  2;;。 因为 jc>2, 就 一定有 j； 彡 2。 不过 
这样 一来， 等 于办的 x 就是两 个大于 1 的整数 的积， 也 就是说 JC 是个 合数。 因此就 证明了 X 不是质 
数， 也就 是命题 F。 因为给 定了^ 也就是 jc 是 质数， 现在 又有了  F， 这样 就有了  而 根据法 
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则 12.27， 它 是等于 0， 或 者说为 FALSE 的。 

于是 证明了 （NOT(M4C))40, 根 据法则 12.29 这就等 价于以 4C。 这样也 就完成 了反证 
法 证明。 

12.9.4 等 价于真 

下一种 证明方 法让我 们可以 通过以 相等换 相等， 直到 表达式 归约为 1  (TRUE), 证明 该表达 
式是重 言式。 

12.30 通过等 价于真 证明： (jy 三]) 三 p  ^ 

♦ 示例 12.25 

表达式 rs  -^>r 表 7K ， 两个表 达式的 AND 蕴 涵了第 一 个表达 式 （ 而 且根据 AND 的 交换律 ，也 

蕴涵 了第二 个表达 式)。 可 以通过 以下一 系列等 价证明 a  4  r 是个重 言式。 

rs  r 

1)  -  NOT(r.s')  +  r 

2)  =  (r  +J)  +  r 

3)  =  1  +  5 

4)  =  1 

应 用法则 12.24, 用 AND 和 OR 定义 4 ， 得到 (1)。 应用 德摩根 律得出 (2)。 利 用法则 12.7 和 12.8, 
重 新排列 各项， 然后根 据法则 12.25 用 1 替代 r  +  F， 就 得到了 (3)。 最后， 应 用法则 12.13,  1 是 OR 
的 零元， 这样 就有了 (4)。 

12.9.5 习题 

(1)  证 明法则 12.25 和 12.27 是 相互对 偶的。 

(2) * 我 们想证 明定理 “如果 jc 是完 全平方 数而且 x 是偶 数， 那么 x 可以被 4 整除 。” 

(a)  指定 代表该 定理中 提到的 3 个有关 x 的条件 的命题 变量。 

(b)  把该 定理用 这些命 题正式 地表示 出来。 

(c)  用 命题变 量的形 式和口 头描 述的形 式给岀 (b) 小题 得到命 题的质 位变换 命题。 

(d)  证明 (c) 小题 得到的 命题。 提示： 要注 意到， 如果 x 不能被 4 整除， 那 么要么 x 是奇 数， 要么 x  =  2;； 
旦 y 是 奇数。 

(3)  * 用反 证法证 明习题 (2) 中的 定理。 

(4)  * 针对有 关整数 x 的命题 “如果 x3 是 奇数， 那么 x 是奇 数”， 重 复习题 (2) 和习题 (3) ( 不过 在习题 (2) 
的 (a) 小 题中只 讨论了 两种情 况）。 

(5) * 通过证 明以下 表达式 等价于 1  (TRUE) ， 证明它 们是重 言式。 

(a)  pq-\-r  +  qr  +  pr 

(b)  p  +  qr  -\-pr-\-qr 

(6) * 通过对 之前已 经证明 的法则 （的 实例） 进行以 相等换 相等， 证 明法则 12.26: 情况 分析。 

(7)  * 将情况 分析法 则一般 化为由 Fh 命题 变量定 义情况 的情形 ，这 些变量 在所有 / 个组 合中可 能为真 
或为假 。那 么验证 6  =  2 的情 况的重 言式是 什么？ 对一般 的&来 说呢？ 证 明该重 言式为 何一定 为真。 

12.10 演绎 

我们在 12.6 节到 12.8 节中看 到了作 为设计 理论的 逻辑， 并在 12.9 节中看 到了作 为证明 技巧的 
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逻辑。 现在， 我们要 看看逻 辑的第 三面： 逻 辑在演 绎中的 使用。 演 绎就是 可以构 成完整 证明的 
一系列 命题。 学习过 平面几 何的话 就应该 对演绎 证明很 熟悉， 在演 绎证明 中我 们从某 些前提 (“给 
定条 件”） 开始， 并 经过一 系列步 骤证明 结论， 其中每 一步都 是由前 一个步 骤经过 有限次 数的推 
理 （称 为推理 规则） 得 到的。 我们 在本节 中会解 释演绎 证明的 构成， 并给 岀若干 示例。 

不巧 的是， 为重言 式找到 演绎证 明是很 难的。 正如 我们在 12.7 节中提 过的， 这是个 “固有 
的 难解” 问题， 是属于 NP 困难 问题一 类的。 因 此要找 到演绎 证明， 要么靠 运气， 要么就 要穷举 
查找。 在 12.11 节中， 我 们会讨 论分解 证明， 虽 然在最 坏情况 下它和 其他技 巧一样 也必须 花上指 
数 时间， 但它看 起来是 对寻找 证明方 法的一 种好的 探索。 

12.10.1 演 绎证明 的构成 


演绎 的应用 

除了 作为数 学证明 的根本 组成， 演绎 证明或 者说形 式证明 在计算 机科学 中也有 很多用 
途。 应用之 一 是 自动证 明定理 （ automated  theorem  proving  )。 存 在一些 这样的 系统： 通过搜 
索从前 提行进 到结论 的步骤 序列， 从而确 定定理 的证明 过程。 有些 系统会 自行查 找证明 ，而 
另 一些则 会与用 户进行 交互， 接受提 示并填 补构成 证明的 步骤序 列中存 在的小 间隙。 有人认 
为， 虽 然要让 这样的 系统 投入实 际使用 还有很 长的路 要走， 但它 们最终 可以用 于证明 程序的 
正 确性。 

演绎证 明的第 二个用 途是用 在与推 导计算 相关的 编程语 言中。 举个 简单的 例子， 机 器人在 
寻找 通过迷 宫的路 径时， 可以把 可能的 状态用 通 道中心 位 置的有 限 集表示 出来 。我 们可以 绘制 
一 幅图， 其中的 节点表 示这些 位置， 而弧 w->v 就意味 着机器 人可以 从位置 w 直接 前移 到位置 V， 
因为 W 和 V 表示的 是邻 接的 通道。 

还可 以把这 些位置 想象成 命题， 其中 W 代表 “ 机器人 可以到 达位置 M。” 那么 就不仅 
能被解 释为一 条弧， 还 可以解 释为一 种逻辑 蕴涵， 也 就是说 “ 如果机 器人可 以到达 W， 那么它 
可 以到达 V。” （请 注意 这里的 “双 关”， 箭头 符号既 可以表 示弧， 也可以 表示蕴 涵。） 我 们很自 
然地 要问： “ 机器人 从位置 a 可以 到达 哪些位 置？” 

如果取 表达式 a, 以 及所有 对应邻 接位置 w 和 v 的表 达式 作为 前提， 看 看可以 从这些 
前 提证明 哪些命 题变量 JC， 就可以 把该问 题用演 绎的形 式表示 出来。 在 这种情 况下， 我 们并非 
真正 需要像 演绎证 明这般 强大的 工具， 因为 正如在 9.7 节 中讨论 过的， 深 度优先 搜索就 能完成 
任务。 不过， 还 有很多 相关的 情形， 使 用图论 方法不 是很有 效率， 但问题 可以用 演绎的 形式表 
示， 并得 到合理 的解决 方案。 


假设 给定了 某些逻 辑表达 式式、 尽、… 、尽 作为 前提， 并 希望得 出形如 另一个 逻辑表 达式五 
的 结论。 一般 来说， 结 论和前 提都不 会是重 言式， 不过 我们想 要证明 

(E{  AND  ^  AND.  •  -AND  Ek  卜 E  (12.11) 

是个重 言式。 也就 是说， 想要 证明， 如果 前提尽 、馬 、… 、尽 为真， 就能 得到五 为真。 

一 种证明 (12. 11) 的 方式就 是为其 构造真 值表， 并检 验其中 各行是 否都是 1， 这 是验证 重言式 
的例行 检验。 不过， 岀于如 下两个 原因， 这样可 能并不 足够。 

(1) 正如 上文提 过的， 如果 表达式 中存在 太多的 变量， 重言式 的检验 就会变 得非常 棘手。 
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(2) 更重要 的是， 尽 管重言 式的验 证对命 题逻辑 来说能 起效， 但 它不能 检验更 复杂逻 辑系统 
(比 如第 14 章中将 要讨论 的谓词 逻辑） 中的重 言式。 

通常可 以通过 给出演 绎证明 来证明 (12.11) 是重 言式。 演绎 证明是 若干行 组成的 序列， 每一 
行 要么是 给定的 前提， 要么是 由之前 的一行 或多行 根据推 理规则 构造岀 来的。 如 果最后 一行是 
E, 就说这 是从尽 、尽 、…、 尽证明 了五。 

可 以使用 的推理 规则有 很多。 唯一 的要求 就是， 如果推 理规则 允许我 们只要 有表达 式巧、 
F2 、…、 是 证明中 的行， 就可以 把表达 式7^ 写为 一行， 就有 

(Fj  andF2  and-- .AND K  卜 f 

一 定是重 言式。 例如， 

(a)  任何 重言式 都可以 用作证 明中的 一行， 而不 管前面 的行是 什么。 这 一规则 成立的 原因在 
于， 如果 樓重 言式， 那么 证明中 0 行的 AND 蕴涵了 F。 请 注意， 按照 约定， 0 个表 达式的 
AND 是 1， 而当 F 为重言 式时， 就是重 言式。 

(b)  肯 定前 件式假 言推理 （ modus  ponens  ) 的规则 是说， 如果 五 和 E  ^  F 是 证明中 的行 ，就 
可以把 F 添加 为证明 的行。 肯定 前件式 假言推 理是由 重言式 &  AND 得岀 
的， 这里 是用表 达式五 代替了 并用 F 代替 了彳。 唯 一的微 妙之处 在于， 我们不 需要五 AND 

这样 一 •行， 而 是需要 单独的 两行， 一 '行是 五， 一 '行是 EdF。 

(C) 如 果五和 F 是证 明中的 两行， 那么可 以添加 一行五 AND  F。 这 样做可 行的原 因在于 
O  ANDg)4(>  ANDg) 重 言式， 可以 用任意 表达式 五替换 /?， 用 F 替换 和 

(d) 如 果有五 和五三 厂这 两行， 那么 可以添 加一行 F。 可以 这样做 的原因 类似于 肯定前 件式假 
言 推理， 是因 为五三 F 蕴涵五 4尸。 也就 是说， AND  是重 言式， 而推理 

规则 (d) 是该重 言式可 替换岀 的 实例。 


无 人喝彩 的声音 

我 们常常 需要 理解为 0 个操作 数应用 运算符 的极限 情况， 就 像在推 理规则 (a) 中 所做的 那样。 
我们 断言， 可以把 0 个 表达式 （或 证明中 的行） 的 AND 当作具 有真值 1。 这样 的动机 在于， 除非 
F\、 Fi、 …、 中 有一个 为假， 否则巧 AND  &  AND … AND  为真 。 但是如 果《  =  0, 也 就是一 
个 F 都没有 ，那么 该 表达式 就不可 能为假 ，因 此很自 然地将 0 个表 达式的 AND 取为 1 。 

我们要 作出这 样一个 约定， 只要对 0 个 操作数 应用运 算符， 得 到的结 果就应 该是该 运算符 
的单 位元。 因为可 以预见 0 个表 达式的 OR 是 0, 因为只 要其中 有一个 表达式 为真， 多个表 达式的 
OR 就 为真。 同样， 0 个数 字之和 被取为 0， 而 0 个数字 之积则 被取为 1。 


♦ 示例 12.26 

假 设我们 具有如 下命题 变量， 具有表 中所示 的直觉 含义。 


r 

“天 在下雨 。” 

U 

“乔伊 带着伞 。” 

W 

“乔伊 被淋湿 了。” 

给定以 下前提 
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_ _ “天在 下雨， 乔伊就 会带着 伞。” _ 

“ 乔伊带 着伞， 所以他 没被淋 湿。” 

“ 如果没 下雨， 乔伊是 不会被 淋湿的 。” 

现在要 求证明 采， 也 就是， 乔伊绝 不会被 淋湿。 从某 种意义 上讲， 这个问 题不值 一提， 因为大 
家可 以验证 

((r  ^  w)AND(w  ^  w)AND(r  w))  ^  w 

是个重 言式。 不过， 还是可 以利用 12.8 节介 绍的一 些代数 法则， 以 及刚刚 讨论过 的一些 推理规 
则， 从前 提证明 W。 如果 要处理 形式比 命题逻 辑更为 复杂的 逻辑， 或者是 要处理 涉及很 多变量 
的 逻辑表 达式， 就需要 采取这 种证明 方式。 图 12-24 展 示了一 种可能 的证明 方式， 以及每 个步骤 
进行 下去的 依据。 

这种 证明的 大概思 路是， 利 用情况 分析， 考 虑天在 下雨及 没下雨 这两种 情况。 根据第 (5) 行 
我 们就证 明了， 如 果天在 下雨， 那 么乔伊 不会被 淋湿， 而 根据第 (6) 行， 由 给定的 前提， 说明如 
果没 下雨， 乔伊就 不会被 淋湿。 第 (7) 到第 (9) 行 结合了 这两种 情况， 以得 到我们 想要的 结论。 


1)  r  ^  u 

2)  u  ^  w 

3)  (r  ^  u)  AND  (u  w) 

4)  ((r  ^  u)  AND  (u  w))  (r  ^  w) 

5)  r  ^  w 

6)  r  ^  w 

7)  (r  ^  w)  AND  (f  ^  w) 

8)  ((r  ^  w)  AND  (f  —  w))  =  w 

9)  w 


前提 

前提 

对⑴ 和⑵ 应用推 理规则 (c) 

对法则 (12. 23) 进 行替换 

肯 定前件 式假言 推理， 以及 ⑶ 和⑷ 

前提 

对⑸ 和⑹ 应用推 理规则 (c) 

对法则 (12. 26) 进 行替换 
推 理法则 ⑹， 以 及⑺和 (8) 


图 12-24 演 绎证明 的示例 

12.10.2 演 绎证明 “起 作用” 的原因 

回想 一下， 演绎 证明首 先有前 提乒、 e2 、…、 尽并要 添加额 外的行 （也 就是表 达式） ，这 
些行都 蕴涵自 g  AND 尽 AND-- _AND 尽。 我们 所添加 的每 一行都 蕴涵自 之前的 0 条或更 多行， 或者 
是 某一行 前提。 我们可 以通过 对目前 为止已 经添加 的行的 数目进 行归纳 ，来 证明巧 AND 尽 AND— 
AND 尽蕴 涵了证 明过程 中的每 一行。 要完 成这一 任务， 需要 两个涉 及语言 的重言 式族。 第一个 
重言式 族是从 ^ 的传 递性一 般化而 来的。 对任何 《 ，有： 

(0?，)漏 (;?，2)AND  … AND  0?，JAND  ((祕…％) 书 ))  4  (户 — r)  (12.12) 
也就 是说， 如果 蕴涵 了各个 &， 而且 &  一 起蕴涵 r， 那么有 蕴涵 r。 

我们可 以通过 以下推 理得出 (12.12) 是重 言式。 （12.12) 为 假的唯 一可能 就是户 为假 ，而 
且左边 那一串 为真。 不过 p  4  r 只能在 p 为真且 r 为假时 为假， 所 以我们 要假设 p 和 F 为真。 然后 
必 须证明 (12. 12) 的左边 为假。 

如果 (12. 12) 的左边 为真， 那么 其中由 AND 连 接的各 个子表 达式都 为真。 例如， Pyqi 为真。 
因为我 们假设 P 为真， 那么 要让; 为真， 就只可 能是％ 为真。 同样， 可以 得岀结 论：％ 、…、 
仏都 为真。 因此 …仏 —r 一定 为假， 因为我 们假设 r 为假， 而且 刚刚发 现所有 的仏都 为真。 
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首 先假设 (12.12) 为假， 因此 得到右 边一定 为真， 所以; 9 和 F 都 为真。 然 后可以 得出， 当 p 为 
真且 r 为假 时， （12.12) 的左边 为假。 但如果 (12.12) 的左边 为假， 贝 lj(12.12) 本身 为真， 这样 就得岀 
了 矛盾。 因此 (12.12) 绝 不可能 为假， 所以 它是重 言式。 

要注 意到， 如果 (12.12) 中有 《  =  1 ， 就有了 — 的传 递性的 情况， 也就 是法则 12.23。 还有 ，如 
果《  =  0 ， 那么 (12. 12) 就成了  , 这是个 重言式 回想 一下， 当《  =  0 时， 按约定 qnn 

被取为 AND 的单 位元， 也就是 1。 

我们 还需要 一类重 言式来 证实可 以为证 明添加 前提。 它是 对示例 12.25 中讨论 过的重 言式的 
一 般化。 我们 声明， 对任 何满足 1  ^ 7 w 的 m 和 / 来说， 

(PJh  … Pj  —  Pi  (12.13) 

是重 言式。 也就 是说， 一个 或多个 命题的 AND 蕴涵它 们之中 的任何 一个。 

表达式 (12.13) 之所 以是重 言式， 是因为 唯一让 它为假 的可能 就是左 边为真 且右边 U.) 为假。 
但如果 A 为假， 那么 A 和其他 P 的 AND 必然 为假， 所以 (12.13) 的左边 为假。 但只要 (12.13) 的左边 
为假， 它就 为真。 

现 在可以 证明， 如 果给定 下列两 个条件 

(1)  前提尽 、尽 、…、 尽; 

(2)  — 组推理 规则， 满足 只要这 些推理 规则允 许我们 写一行 F， 那么该 行要么 是乓中 的某一 
个， 要么对 某组之 前的行 €、 F2 、…、 ， 存在 重言式 

{Fx  AND  F2  AND … AND  Fn)^F 

则 对各行 F,  (g  AND 尽 AND … AND 尽 )4  F  — 定是重 言式。 要对添 加到证 明中的 行的数 量进行 
归纳。 

依据。 我们以 0 行的情 况作为 依据。 这 一命题 成立， 因 为它表 示的是 与证明 中每行 F 有关的 
信息， 而且 并没有 这样的 行需要 讨论。 也就 是说， 我们 的归纳 命题其 实形如 “如果 F 为证 明的 
一行， 那么 …… ”， 而 且我们 知道如 果条件 为假， 那么 这样的 “ 如果- 那么” 命题就 为真。 

归纳。 对归 纳部分 而言， 假设 对之前 的各行 G, 有 

AND  E2  AND-- -AND  Ek)^G 
是重 言式。 设 F 是添 加的下 一行。 就 有两种 情况。 


演绎证 明与等 价证明 

我们在 1 2 . 8 节和 1 2 . 9 节 中看到 的证明 方式与 1 2 . 1 0 节研究 的演绎 证明有 着不同 的风格 。不 
过， 这两种 证明都 需要构 建一系 列的重 言式， 以 得出所 需的重 言式。 

在 12.8 节和 12.9 节中我 们看到 了等价 证明， 由一个 重言式 开始， 通过 各种替 换得出 另外的 
重 言式。 得 到的所 有重言 式对某 些表达 式五和 F 而言具 有五三 F 的形 式。 这 种证明 风格会 被用于 
三角 学中， 例如， 在证明 “ 三角恒 等式” 时会 用到。 

演 绎证明 也需要 寻找重 言式。 唯一 的区别 在于， 其中 各个重 言式都 形如五 4尸， 其 中五是 
前提的 AND, 而 F 是证 明中我 们实际 要得出 的行。 事 实上， 我 们不写 出整个 重言式 只是一 种表示 
上的 便利， 而非 本质上 的区别 。 我们也 应该很 熟悉这 种证明 方式， 它 常用于 平面几 何中的 证明。 


情况 1:  F 是前提 之一。 那么 (6  AND 尽 AND... AND 尽 )4  F 是重 言式， 因为 它源自 (12.13)， 
是 m  =  A ， 而且对 /  =  1 、2 、 …上 用 替换各 个/^ 得 到的。 


12.11  分 解证明  557 


情况 2:  7^是 因为推 理规则 


(Fx  AND  F2  AND  … AND  FJ^F 

而被添 加的， 其中各 个& 都是之 前各行 中的某 一行。 根据归 纳假设 

{Ex  AND  E2  AND- --AND  Ek)^Fj 

X 才各个 /而言 都是重 言式。 因此， 如果用 替换 (12.12) 中的 t， 用 

E'  AND  E2  AND- --AND  Ek 

代替 ；?， 并用 F 代替 r, 我 们就会 知道， 对表达 式五和 F 中变 量的 真值进 行任何 替换， 都会使 (12.12) 
的左边 为真。 因为 (12.12) 是重 言式， 所以 每一种 真值赋 值都会 让右边 为真。 而 这里的 右边是 
的 AND 尽 AND...AND4)4F 。 由 此可以 得出， 该表达 式对每 种真值 赋值都 为真， 也 就是说 ， 
它 是个重 言式。 

我们现 在已经 得出了 归纳的 结论， 而且 证明了 对证明 中的每 行都有 

{Ex  AND  E2  AND- --AND  Ek)^F 

特 别要说 的是， 若证 明中最 后的那 行是我 们的目 标五， 就知道 (g  AND 尽 AND  —  AND 尽 ）4 五。 

12.10.3 习题 

(1) * 从下列 各小题 给岀的 前提， 分 别给出 对相应 结论的 证明。 大 家可以 使用推 理规则 (a) 到 (d)。 而对 
于重 言式， 只可 以使用 12.8 节和 12.9 节中陈 述过的 法则， 以及用 “以 相等换 相等” 的 方式从 这些法 
则 的实 例得到 的重 言式。 

(a)  前提： p^q  ,  p  4  r  0 结论： p  4  qr  0 

(b)  前提： p^(q  +  r)  ,  p4{q  +  r)  0 结论： q  0 

(c)  前提： p^q  ,  qr  4  s 。 结论： qr  4  s 。 

(2)  说明 以下内 容为何 是推理 规则。 如果五 4，是 证明的 一行， 而且 G 是任 何表 达式， 那么我 们可以 
添加 E^{F  OR  G) 这样 一行。 

12.11 分 解证明 

正如 我们在 本章前 面的内 容中提 过的， 寻找 证明是 个困难 问题， 而且 因为重 言式问 题看起 
来是天 生的指 数时间 问题， 所以没 有通行 的方式 可以使 寻找证 明变得 简单。 不过， 有很 多已知 
的 只针对 “ 典型” 重 言式的 技巧， 看起 来对找 寻证明 所需的 探索工 作有所 帮助。 在本节 中我们 
就 要研究 一条实 用的推 理规则 —— 分解 （resolution), 它 可能是 这些技 巧中最 基本的 一条了 。分 
解是 基于以 下重言 式的。 

((p  +  q)(p  +  r))  ^  (q  +  r)  (12.14) 

这条推 理规则 的有效 性是很 容易验 证的。 想让它 为假只 有一种 情况， 就是 g  +  r 为假， 而 且左边 
的 表达式 为真。 如果 g  +  r 为假， 那么 g 和 r 都为 假。 假设 p 为真， 则歹 为假。 那么戶 +  r 为假 ，而 
(12.14) 的左边 就一定 为假。 同样， 如果 p 为假， 那么 p  +  g 为假， 还 是说明 (12.14) 的左边 为假。 
因此， 不 可能让 (12.14) 的左 边为真 且右边 为假， 所以可 以得岀 (12.14) 是个重 言式。 

应 用分解 的一般 方式是 把前提 转换成 子句， 这些子 句是文 字的和 （逻辑 OR)。 我们 可以把 
各 个前提 都转换 成子句 的积。 而 我们的 证明要 以这些 子句作 为证明 中的行 开始， 这样做 的原因 
是各子 句都是 “给定 的”。 然后 应用分 解规则 构造新 的行， 而这些 行总能 证明是 子句。 也就 是说， 
如果 (12. 14) 中的 ^ 和 r 各自 被 任意文 字和所 替代， 那么 ^  +  r 也 将是文 字和。 
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在 实际应 用中， 我们将 通过删 除重复 来简化 子句。 也就 是说， 如果 g 和 r 都包含 文字足 这种 
情况下 就要从 ^ +  r 中删除 I 的一个 副本。 之所以 可以这 样做， 是因为 有法则 12.17、 12.7 和 12.8, 
也就是 OR 的幂 等性、 交换 律和结 合律。 一般 而言， 实用 的看法 是把子 句看作 文字的 集合， 而非 
文字的 列表。 结合 律和交 换律让 我们可 以按照 任意方 式排列 文字， 而幕等 性则让 我们可 以消除 
重复。 

还 要消除 那些含 有互斥 文字的 子句。 也 就是说 Z 和叉 在一个 子句中 岀现， 那么利 用法则 
12.25、 12.7、 12.8 和 12.15, 该子句 等价于 1， 就不 需要在 证明中 包含该 子句。 也就 是说， 根据法 
则 12.25， (X  +  X)^l  , 而且 根据零 元法则 12.15， 1 与任何 逻辑表 达式求 OR 都 等价于 1。 

♦ 示例 12.27 

考 虑子句 （a  +  F  +  c) 和 （d +a  +  6  +  e) 。 我们 可以让 办扮演 (12.14) 中；? 的 角色， 那么 分就是 
d+a  +  e, 而 r 就是 fl  +  c。 请 注意， 我们 已经重 新进行 了一些 调整， 把 子句与 (12.14) 匹配 起来。 
首先， 第二个 子句与 (12.14) 中 的第一 个子句 /7  +  g 已经 匹配， 而第一 个子 句是与 (12.14) 的 第二个 
子句匹 配的。 此外， 扮演 的角 色的变 量一开 始并未 出现在 我们的 两个子 句中， 不过 没关系 ，因 
为 OR 的交 换律和 结合律 说明我 们能够 以任何 次序重 新排列 子句。 

如果我 们的两 个子句 已经出 现在证 明中， 则 新子句 g  +  r 也 可以作 为证明 中出现 的行， 这个 
新 子句就 是 W  +  e  +  a  +  c) 。 可 以消除 多余的 a， 将 该子句 简化为 +  a  +  e  +  c) 。 

再举个 例子， 考 虑子句 (a +  6) 和 (5  +  6) 。 如果 a 是 (12. 14) 中的 /?， 而 g 是 6， r 是 b ， 就 得出新 
子句⑺ +  0。 该子句 等价于 1， 因此 不需要 生成。 

12.11.1 把逻辑 表达式 变成合 取范式 

为了让 分解起 作用， 需 要把所 有的前 提以及 结论， 变成和 的积的 形式， 也就是 “ 合取范 式”。 
可以采 取的方 法有若 干种， 最 简单的 可能就 是以下 这些。 

(1)  首先， 要消 除除了 AND、 OR 和 NOT 之外的 任何运 算符。 我们根 据法则 12.21 把五三 F 替 
换为 （E  4  F)(F  4  E) 。 然后， 根 据法则 12.24, 把 G  4 // 替换为 NOT(G)+(//)。 NAND 和 NOR 也 
很容易 分别用 NOT 后加上 AND 或 OR 来 替代。 事 实上， 因为 AND、 OR 和 NOT 是运算 符的完 全集， 
所以可 知任何 逻辑运 算符， 包 括那些 本书中 没有介 绍的， 都 可以用 只涉及 AND、 OR 和 NOT 的 
表达式 替换。 

(2)  接 下来， 应 用德摩 根律把 所有的 否定向 下压， 直到它 们根据 12.8 节中 的法则 12.13 被其他 
否定 抵消， 或是只 应用到 命题变 量上。 

(3)  现在 要应用 OR 对 AND 的分 配律， 把 所有的 OR 压 到所有 AND 之下。 得 到是由 OR 结 合的文 
字， 然 后是由 AND 结 合的表 达式， 这就 是合取 范式表 达式。 

♦ 示例 12.28 

我 们来考 虑以下 表达式 

p  +  [q  AND  NOT(r  AND(5-?))) 

请 注意， 为了 均衡考 虑简洁 性和清 晰性， 我们 在这里 和以后 的表达 式中会 混用简 化符号 和原始 
符号。 

第 (1) 步 要求把 替换为 I  +  Z ， 给 出只含 AND、 OR、 NOT 的 表达式 
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p  +  [q  AND  NOT(r(5+0)) 

在第 (2) 步中， 必须利 用德摩 根律把 第一个 NOT 向 下压。 在接 下来的 一系列 步骤中 NOT 到 达了命 
题 变量。 

p  +  (^q{7  +N0T(5  +，))） 
p  +  (^q{r  +(NOT  歹)(厂))) 
j9  +  (^(r +(^))) 

现在应 用法则 12. 14 ， 把 第一个 OR 压到 第一个 AND 以下。 

(j9  +  ^)(j9  +  (r +(^))) 

接下来 要利用 12.8 节 的法则 12.8 重新组 合命题 变量 ，从而 把 第二和 第三个 OR 压到 第二个 AND 
之下。 

(p  +  q)((p  +  r)  +  (sT)) 

最后， 再次利 用法则 12.14, 所有的 OR 都 在所有 AND 之下。 得到的 如下表 达式就 是合取 
范式。 

(p  +  q)(p  +  r  +  s)(p  +  7  +  T) 

12.11.2 利 用分解 的推理 

我 们现在 看到了 从前提 6、 尽、… 、尽找 到五的 证明 的一种 方法， 并了解 了其大 致脉络 。把 
E 和 H"、Ek 分别转 换为合 取范式 表达式 F 和 F'、F2，"、Fk。 我们要 为一对 对子句 应用分 
解 规则， 因此要 为证明 添加新 子句作 为证明 的行。 然后， 如果向 证明中 添加了 F 的所有 子句， 
就 证明了 F， 从而 也证明 了五。 

♦ 示例 12.29 

假设以 表达式 (r  4  w)  (w  4 元 ） （F  — 拓) 作为 前提。 请 注意， 该表 达式是 7K 例 12.26 中 使用过 
的 前提的 AND。 $设 像示例 12.26 中 那样， 所需 的结论 是免。 我们 可以根 据法则 12.24, 替 换掉这 
些 把前 提转换 成合取 范式。 至此， 得 到的结 果已经 是合取 范式， 不需要 进行进 一步的 处理。 
所需 的结论 兩已经 是合取 范式， 因 为任何 单个文 字都是 子句， 而单个 子句就 是子句 的积。 因此 
我们 一开始 有子句 

(r  +u)  (u  +w)  (r  +  w) 

现在， 假 设要以 r 扮演 p 的 角色， 分解第 一个和 第三个 子句， 得到的 子句就 是《  + 开。 该子 句可以 
与 前提中 的第二 个子句 一起被 分解， 以 t/ 代替 p， 得 到子句 (叼。 因 为该子 句就是 所需的 子句， 
所以任 务就完 成了。 图 12-25 把证 明过程 展示为 一系列 语句， 其中每 一行都 是一条 子句。 


1) 

(f  +  u) 

前提 

2) 

(u  +  w) 

前提 

3) 

(r  +  w) 

前提 

4) 

(u  +  w) 

(1) 和 (3) 的分解 

5) 

㈣ 

(2) 和 (4) 的分解 

图 12-25 元的分 解证明 


①大家 现在应 该已经 看到， 不管 是写成 很多条 前提， 还是把 它们用 AND 连接 起来写 出一条 前提， 都是可 以的。 
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分解为 何有效 

一般 来说， 找 到证明 需 要组织 起从前 提到结 论这一 系 列行的 运气或 技巧。 大 家现在 可能已 
经注 意到， 尽管 很容易 验证 12. 1 0 节和 12. 1 1 节 中给出 的证明 是有 效证明 ，而 完成 那些需 要寻找 
证明的 习题就 要困难 得多。 一 般来说 ， 猜 测示例 12.29 中那 样为了 生成某 一子句 或某些 子句而 
要执 行的 一系列 分解， 并不比 寻找证 明简单 多少。 

不过， 如果 把分解 与反证 法结合 起来， 就像 在示例 12.30 中 那样， 就可 以看到 分解的 魔力。 
因 为我们 的目标 子句是 0, 是 “最 小的” 子句， 突然 间就有 了搜寻 “ 方向” 的 概念。 这就 是说， 
可以 试着逐 步证明 更小的 子句， 以 期最终 能证明 0。 当然， 这 样的探 索并不 能确保 成功。 有时 
候 ，我们 在开始 缩小子 句并最 终证明 0 之前必 须证明 某个非 常大的 子句。 

其实， 分解 是针对 命题演 算的完 全证明 过程。 只要⑷ 尽…馬 ）4 五是重 言式， 就可 以从以 
字句形 式 表示的 EpE/'Ek 和 NOT 五得 出 0。 是的， 这 就是逻 辑学家 们为“ 完全” 赋 予的第 
三个 含义。 回想 一下， 其 他两种 含义分 别是“ 能够表 示任何 逻辑函 数的运 算符集 合”， 以及 “NP 
完全” 中 那样指 “ 一类问 题中最 难的问 题”。 这里还 是要说 ， 存在 这样的 证明并 不代表 找到这 
样的 证明很 容易。 


12.11.3 利 用反证 法的分 解证明 

将分 解用作 证明机 制的一 般方式 与示例 12.29 中的 情况多 少有些 区别。 我们不 是从前 提开始 
并试 着证明 结论， 而是 从前提 和结论 的否定 开始， 试着得 岀不含 文字的 子句。 这 一子句 的值为 0, 
或者说 FALSE。 例如， 如果 我们有 子句⑼ 和 (户）， 就能以 g  =  r  =  0 应用 (12.14)， 得 到子句 0。 

这 种方式 之所以 有效， 是因为 12.9 节 中提到 的法则 12.19, 或者说 在这里 ，设 
是要 证明的 命题： 对某些 前提尽 、尽 、…、 尽和 结论五 而言， 有财 2...Ek)4E 。 那么 尹 就是 
NOT(( 馬尽… 尽 ）4五） ， 或者利 用法则 12_24, 就是 NOT(NOT ⑷尽 …尽) +五）。 若 干次应 用德摩 
根律就 可以得 岀;? 等价于 g 尽… 尽瓦。 因此， 要 证明; ?， 可 以改为 证明尹 40, 或者说 是证明 
卿2 … EkE)4Q 。 也就 是说， 我们证 明了前 提和结 论的否 定一起 蕴涵着 矛盾。 

♦ 示例 12.30 

现在 重新考 虑示例 12.29, 不过这 次要从 3 个 前提子 句和所 需结论 的否定 —— 子句 (w) —— 开 
始。 0 的 分解证 明如图 12-26 所示。 利用反 证法， 可以得 出这些 前提蕴 涵了所 需的结 论开。 


1) 

(f  +  u) 

前提 

2) 

(u  +  w) 

前提 

3) 

(r  +  w) 

前提 

4) 

(w) 

结论 的否定 

5) 

(u  4 -  w) 

(1) 和⑶ 的分解 

6) 

㈣ 

(2) 和 (5) 的分解 

7) 

0 

(4) 和⑹ 的分解 

图 12-26 利 用反证 法的分 解证明 


12.11.4  习题 


(1) 利用真 值表， 验证 表达式 (12. 14) 是重 言式。 
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a 

某人的 血型为 A 型 

b 

某人的 血型为 B 型 

c 

某人的 血型为 AB 型 

o 

某人的 血型为 0 型 

t 

某人的 血样进 行测试 r 的结 果为 阳性 

s 

某人的 血样进 行测试 S 的结果 为阳性 

图 12-27 习题 (2) 的命题 

(2)  设 命题具 有如图 12-27 给定的 含义， 写岀 表示如 下概念 的子句 或子句 之积。 

(a)  如 果测试 7 结果为 阳性， 那么 此人的 血型为 A 型或 AB 型。 

(b)  如果测 试*5 结果为 阳性， 那么 此人的 血型为 B 型或 AB 型。 

(c)  如 果某人 血型为 A 型， 那 么测试 T 的结 果为 阳性。 

(d)  如 果某人 血型为 B 型， 那 么测试 ^ 的结 果为 阳性。 

(e)  如 果某人 血型为 AB 型， 那么测 试挪测 试艰) 结 果都为 阳性。 提示： 请 注意， 卩 + 的不是 子句。 

(f)  一个人 的血型 可能是 A、 B、 AB 或 0 其中的 一种。 

(3)  利用 分解， 找到 由习题 (2) 中 可以得 岀的所 有重要 子句。 大 家应该 忽略那 些可以 简化为 1  (TRUE) 
的无关 紧要的 子句， 还要忽 略那些 文字是 其他某 个子句 乃 文字 真超集 的子句 C。 

(4)  为 12.10 节 的习题 (1) 给岀使 用了分 解和反 证法的 证明。 

12.12 小结 

在本 章中， 我们已 经看到 了命题 逻辑的 要素， 包 括下列 这些： 

□基 本运 算符， AND、 OR、 NOT、 4 、 三、 NAND 和 NOR; 

□ 利 用真值 表表示 逻辑表 达式的 含义， 包 括根据 表达式 构造真 值表以 及根据 真值表 构造表 
达式的 算法； 

□ 诸多应 用到逻 辑运算 符的代 数法则 中的一 部分。 

我 们还谈 论了作 为设计 理论的 逻辑， 具体 如下： 

□ 卡诺 图如何 有助于 我们为 至多含 4 个变 量的逻 辑函数 设计简 单的表 达式； 

□逻辑 代数法 则有时 候是如 何用来 简化逻 辑表达 式的。 

然后， 我们看 到逻辑 可以帮 我们表 示和理 解常见 的证明 技巧， 比如： 

□ 利用 情况分 析进行 证明； 

□ 利用 换质位 法进行 证明； 

□ 利用 矛盾进 行证明 （ 反证 法）； 

□ 利 用对真 实的归 约进行 证明。 

最后， 我们研 究了演 绎法， 也就 是一行 行证明 语句的 构造， 注 意其中 几点： 

□存在 大量推 理规则 ，比如 “肯定 前件式 假言推 理”， 让 我们可 以从证 明中之 前的行 构造新 
一行； 

□通过 把证明 的行表 示为文 字和， 并把 这些和 以实用 的方式 组合， 分 解技巧 通常能 帮助我 
们迅 速找到 证明； 

□ 不过， 尚无 已知算 法可以 保证在 少于以 表达式 大小为 指数的 时间内 找到表 达式的 
证明； 
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□此 外， 因为 重言式 问题是 “NP 困难问 题”， 所 以不存 在少于 指数时 间的解 决该问 题的算 
法 这一观 点是 非常可 信的。 
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第 13 章 

利用 逻辑设 计计算 机元件 


在 本章中 我们会 看到第 12 章 中学习 的命题 逻辑可 以应用 到数字 电子电 路的设 计中。 这样的 
电路 在每台 计算机 上都能 找到， 它 们使用 两种电 压电平 （“ 高”和 “ 低”） 表 示二进 制数值 1 和 0。 
除了 了解设 计过程 之外， 我们还 将看到 算法设 计技巧 ，比如 “分治 法”， 也 可以应 用到硬 件上。 
其实， 务必意 识到设 计执行 给定逻 辑函数 的数字 电路的 过程， 从本 质上讲 与设计 执行给 定任务 
的 计算机 程序的 过程是 非常类 似的。 不过二 者所使 用的数 据模型 却差异 明显， 一 般来说 电路会 
被设计 成并行 （同 时） 处 理很多 事务， 而一般 的编程 语言都 是顺序 （一 次一 步地） 执行 它们的 
步骤。 不过， 像模 块化设 计这样 的通用 程序设 计技巧 也是适 用于电 路的。 

13.1 本章主 要内容 

本章涵 盖了数 字电路 设计中 的以下 概念。 

□ 门的 概念， 门是执 行某一 逻辑运 算的电 子电路 （ 13.2 节)。 

□ 门如何 被组织 成电路 （ 13.3 节)。 

□ 某 些被称 为组合 电路的 电路， 它们 是逻辑 表达式 的电子 等价物 （ 13.4 节)。 

□ 电路设 计所受 的物理 约束， 以 及电路 要快速 产生答 案所必 须具备 的属性 （13.5 节)。 

□ 两 个有趣 的电路 示例： 加 法器和 多路复 用器。 13.6 节和 13.7 节 展示了 如何利 用分治 法为这 
两个 问题设 计执行 迅速的 电路。 

□ 存储单 元是一 种可以 记住其 输入的 电路， 而组合 电路则 不能记 住它之 前接收 的输入 
( 13.8 节)。 

13.2  n 

门是 具有一 个或更 多输入 的电子 设备， 可以 假设各 输入要 么是值 0 要 么是值 1。 正如 之前提 
过的， 逻辑值 0 和 1 通 常使用 两个不 同的电 压电平 表示， 不过 这种物 理表示 方法并 不会对 我们产 
生 影响。 门 通常具 有一路 输出， 它是 输入的 函数， 而 且它的 值也是 0 或 1。 

每个 门都会 计算某 个特定 的布尔 函数。 大多 数电子 “ 技术” （制 造电子 电路的 方法） 有利于 
为某 些布尔 函数而 不是其 他布尔 函数构 建门。 特 别要说 的是， AND 门 （与 门） 和 OR 门 （或 门） 
通 常是很 容易构 建的， NOT 门 （非 门， 也称反 相器） 也是。 虽然像 13.5 节 中要讨 论的， AND 门和 
OR 门 可以具 有任意 数量的 输人， 但通 常会对 门所具 有的输 人加以 实际的 限制。 如果 AND 门的所 
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有输 人都是 1， 它的输 出就是 1， 而 如果它 的输入 中至少 有一个 0, 则其 输出为 I 同样， 如果 OR 
门的 输人中 至少有 一个是 1 ， 那 么它的 输出是 1 ， 如果 所有输 人都是 0, 则其 输岀为 0。 反相器 （ NOT 
门） 只 有一路 输入， 如 果它的 输人是 0, 那 么它的 输出为 1， 而 如果其 输人为 1， 则 输出是 0。 

我们还 发现， 在 大多数 技术中 NAND 门 （与 非门） 和 NOR 门 （或 非门） 也是很 容易实 现的。 
只有 NAND 门的 所有输 人都是 1 才产 生输出 0， 否则输 出就是 1。 当 NOR 门 的所有 输人为 0 时， 其输 
入是 1， 否 则它的 输入是 0。 比较难 以通过 电子方 式实现 的逻辑 函数是 等价， 该函 数接受 两路输 
\x^Uy, 而 且如果 :^和^ 都是 1 或都是 0， 那么产 生的输 出就是 1。 而当 x 和 ^中 刚好有 一 '个是 1 时， 
输 岀就是 0。 不过， 我 们可以 通过实 现能够 识别逻 辑函数 + 巧 7 的 电路， 用 AND 门、 OR 门和 NOT 
门构 建等价 电路。 

表 示我们 提到的 门的符 号如图 13-1 所示。 除了 反相器 （NOT 门） 之外， 所示 的每种 门都具 
有两路 输入。 不过， 通过添 加额外 的线， 很 容易给 岀两个 以上的 输入。 单 输入的 AND 门和 OR 门 
也是可 行的， 但它们 没有什 么实际 作用， 只 是把它 的输出 传递给 输出。 单 输入的 NAND 门和 NOR 
门其实 就是反 相器。 


(a)  AND 


(b)  OR 


(c)  NOT 


(d)  NAND 


(e)  NOR 


图 13-1 表 7K 门 的符号 


13.3 电路 

通过连 接某些 门的输 岀与其 他门的 输入， 就可 以把门 组合成 电路。 整 个电路 可能有 一个或 
更多 输人， 每 路输入 都可能 是电路 中若干 个门的 输入。 而一 个或多 个门的 输出会 被指定 为电路 
的 输岀。 如果存 在多路 输岀， 那么还 必须为 输岀的 门指定 次序。 

♦ 示例 13.1 

图 13-2 展示了 产生输 h 和 j； 的等价 函数作 为输出 z 的电 路。 约定 而言， 我 们把输 人放在 顶部。 
输入 JC 和 都是 提供给 04 的， 它是个 AND 门， 所以当 （且 仅当） x  =  =  l 时会产 生输岀 1。 此外， 
x 和 j 会 分别被 NOT 门 反相， 而且这 些反相 器的输 出会被 提供给 ■。门乃。 因此， 当 且仅当 X 和 j； 都 
是 0 时， 门乃 的输 岀是 1。 因为 04 和门乃 的输岀 会 提供给 OR 门五， 我们 可以看 到当且 仅当； c  =  y  =  l 
^x  =  y  =  0 时 门五的 输出是 1 。 图 13-3 中 的表 给出了 对应各 门输出 的 逻辑表 达式。 

因此， 当且仅 当逻辑 表达式 吵+ 疗 的值为 1 时， 该电路 的输出 z  (就是 门五的 输出） 是 1。 因 
为该 表达式 等价于 表达式 ， 我们看 到电路 的输岀 是这两 路输入 的等价 函数。 
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y 


图 1 3-2 等价 电路： z 是 表达式 x  =  y 


门 

门 的输出 

A 

xy 

B 

X 

C 

y 

D 

xy 

E 

xy  +  xy 

图 13-3 图 13-2 中各门 的输岀 

13.3.1  组合电 路和时 序电路 

我们可 以利用 AND、 OR 和 NOT 这样 的一系 列逻辑 运算符 写出表 达式， 而这类 表达式 与可以 
用执 行同一 组运算 符的门 构建的 电路之 间存在 着密切 关系。 在继 续讲述 之前， 我 们先把 注意力 
集中 在一类 称为组 合电路 （ combinational  circuit ) 的 重要电 路上。 这些电 路是无 环的， 这 种情况 
下门 的输 岀不能 到达其 输入， 即便是 经过一 系列中 间门。 

我 们可以 利用图 的知识 来精确 定义想 通过组 合电路 表示的 含义。 首先， 画出 图中节 点对应 
电 路中的 门的有 向图。 如果门 w 的输岀 直接连 接到门 v 的任何 输入， 就添加 一条弧 如果 
电 路的图 中没有 环路， 那么该 电路就 是组合 电路， 否则它 就是时 序电路 。 
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♦ 示例 13.2 

在图 13-4 中， 我 们看到 根据图 13-2 所示 电路画 岀的有 向图。 例如， 存在弧 因为 HU 
的 输出被 连接到 门五的 输人。 图 13-4 所示 的图显 然不含 环路， 其实， 它是以 五为根 节点， 方向倒 
置 的树。 因此， 可 以得岀 结论： 图 13-2 所示 的电路 是组合 电路。 


另一 方面， 考虑图 13-5a 的 电路。 在那幅 图中， HU 的输 岀是门 5 的 输入， 耐 如 的输 岀又是 
门 J 的输 人。 对应该 电路的 图如图 13-5b 所示， 它显 然具有 环路， 所以 该电路 是时序 电路。 


x  y 


(b) 它的图 


图 13-5 时 序电路 及其对 应的图 

假设 该电路 的输入 X 和 都是 1， 那么 B 的输 岀就 肯定是 1， 这样 AND 门 J 的两 路输 入都是 1。 因 
此， 该 门会产 生输出 1。 现在我 们可以 设输人 V 是 0, 而 OR 门 5 的输出 仍然是 1， 因 为它的 另一路 
输入 （来自 J 的输岀 的那路 输入） 是 1。 因此， J 的 输入仍 然都是 1， 而它 的输岀 也还是 1。 

不过， 假设 x 变为 0, 而不管 y 是不是 0。 那么门 J 的输 岀以 及电路 的输岀 z —定是 0。 如 果在过 
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去 的某个 时刻， X 和 7 都是 1， 而 且因此 X  ( 但;; 不 一定） 仍然是 1， 就可 以把电 路输出 z 描述为 1。 
图 13-6 把若 干输入 值组合 对应的 输岀表 示成了 时间的 函数， 低电 平表示 0, 高电 平表示 1。 


y 


图 13-6 图 13-5a 所示 电路的 输岀， 表示 为时间 的函数 


时序 电路和 自动机 

在第 10 章 讨论过 的确定 有限自 动机与 时 序电路 之间存 在密切 关系。 尽 管该主 题不在 本书要 
讨论 的范围 之内， 但给 定任何 确定自 动机， 我 们都可 以设计 这样一 个时序 电路。 只有当 自动机 
的 输入序 列被接 受时， 该电路 才输出 1。 更精确 地讲， 可能 来自任 意字符 集合的 自动机 输入， 
一 定要经 过合适 数量的 逻辑输 入进行 编码， 电路的 &个逻 辑输入 最多可 以编码 2〃  个 字符。 


我 们将会 在本章 结尾部 分简要 讨论一 下时序 电路。 正 如我们 在示例 13.2 中看 到的， 时序电 
路具 备一种 能力， 可以 记住与 目前为 止所见 输入序 列有关 的重要 事项， 因 此像主 存和寄 存器这 
样的 计算机 关键元 件需要 它们。 另一 方面， 组合电 路可以 计算逻 辑函数 的值， 但 它们必 须处理 
输入 的单个 设置， 而且 没法记 住之前 的输入 被置为 什么。 不过， 组 合电路 也是计 算机的 关键元 
件。 组 合电路 为许多 任务所 需要， 比如 把数字 相加， 把指令 解码成 使计算 机可以 执行这 些指令 
的 电子信 号等。 在接下 来的几 节中， 我们 将把大 多数精 力放在 组合电 路的设 计上。 

13.3.2  习题 

(1)  设计产 生以下 输岀的 电路， 可以利 用如图 13-1 所 示的任 何门。 

(a)  输人 x 和 y 的奇 偶校验 （或 者说和 mod2) 函数， 当 且仅当 x 和 中 刚好有 一个是 1 时 输岀为 1。 

(b)  输人 w、 x、 y 和 z 的多数 （majority) 函数， 当且 仅当输 人中有 3 个或 3 个 以上为 1 时 输出是 1。 

(C) 输人 W、 X、 和 Z 的函 数， 只 有在输 人全是 1 或 全不是 1 的 情况下 输出是 1。 

(d)  12.4 节习题 (7) 中讨 论过的 异或函 数㊉。 

(2)  * 假设图 13-5a 的电 路被修 改为门 J 和门 5 都是 AND 门， 而 且输人 x 和 7 —开 始都是 1。 随 着输人 改变， 
在 什么情 况下输 岀会是 1? 

(3)  * 如 果两个 门都是 OR 门， 重 复习题 (2)。 

13.4 逻辑 表达式 和电路 

要构 建输岀 （表 示为其 输入的 函数） 与给定 逻辑表 达式输 岀相同 的电路 是相当 简单的 。反 
过来， 给 定组合 电路， 我 们也可 以为电 路的各 路输出 （表 示为其 输人的 函数） 找 到相应 的逻辑 
表 达式。 而正 如我们 在示例 13.2 中看 到的， 同样的 做法并 不适用 于时序 电路。 
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13.4.1 从 表达式 到电路 

给定具 有某些 逻辑运 算符的 逻辑表 达式， 我 们可以 根据它 构建一 个组合 电路， 该电 路使用 
具 有相同 运算符 的门， 而且 可以识 别相同 的布尔 函数。 我们构 造的电 路总是 具有树 的形式 ，所 
以可 以通过 xf 表达 式的表 达式树 进行结 构归纳 以构造 电路。 

依据。 如果表 达式树 是单个 节点， 该表达 式只能 是一路 输入， 比方说 X。 而该 表达式 对应的 
“ 电路” 就 会是电 路输入 x 本身。 


归纳。 而 对归纳 部分， 假设所 考虑的 表达式 树像图 13-7 这样。 在根节 点位置 存在某 个被称 
为沒的 逻辑运 算符， 例如 0 可以是 AND 或 OR。 根 节点有 4 果 子树， 而 且要对 各子树 的结果 应用运 
算符 0 以 产生整 棵树的 结果。 

因为我 们在进 行结构 归纳， 所以可 以假定 归纳假 设适用 于子表 达式。 因此， 存在对 应表达 
式尽 的电路 q、 对应尽 的电路 C2, 等等。 

要为 E 构建 电路， 就要为 运算符 0 选择一 个门， 并为该 门提供 《路 输人， 其中 各路输 入按照 
次 序分别 是电路 Cp  C2 、…、 的输 出。 而 对应五 的电路 的输出 来自刚 介绍的 0 门， 电路 构造如 
图 13-8 所示。 


电 路输入 


电 路输出 


图 13-8 表示外 尽,… ，五 „) 的 电路， 其中 C； 是 表示尽 的电路 


我 们所构 建的电 路是以 显见的 方式计 算表达 式的。 不过， 也可 能存在 产生相 同输出 函数但 
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所使用 的门更 少或电 路层级 更少的 电路。 例如， 如果给 定的表 达式是 (x  +  _y)z  +  (x  +  j)W, 那么 
我们 构建的 电路就 会出现 两个识 别相同 表达式 x  +  7 的子 电路。 我们可 以重新 设计该 电路， 从而 
只使用 一个这 样的子 电路， 并为 用到子 表达式 x  +  y 的其他 地方提 供该子 电路的 输岀。 

要改 进电路 设计， 还可以 进行其 他更为 疯狂的 变形。 就像高 效算法 的设计 一样， 电 路设计 
也是门 艺术， 而且 我们还 将在本 章后续 的内容 中看到 一些和 电路设 计有关 的重要 技巧。 

13.4.2 从电路 到逻辑 表达式 

现在来 考虑一 下相反 方向的 问题， 为 组合电 路的输 出构造 逻辑表 达式。 因为 我们知 道组合 
电路的 图是无 环的， 所以可 以选定 其节点 （即 电路中 的门） 的拓扑 次序， 而且具 有如下 属性： 
如 果该次 序中第 / 个门 的输岀 被提 供给第 /个门 的 输入， 那 么/一 定小于 /。 

♦ 示例 13.3 

图 13-2 所 7K 电 路中的 门可能 的拓扑 次序之 一 '是 ABCDE ， 而另 一 •拓扑 次序是 SCDifi1。 不过 
不 是拓扑 次序， 因为门 C 要为门 7) 提供 输人， 但该 序列中 Z) 却出 现在 C 之前。 

要 从电路 构建表 达式， 就要使 用归纳 构造。 这里将 通过对 / 的归 纳证 明如下 命题。 

命题 MO。 对拓 扑次序 中的前 / 个门 来说， 存在与 这些门 的输岀 对应的 逻辑表 达式。 

依据。 依据是 /  =  0。 因 为要考 虑的是 0 个门， 就没什 么要证 明的， 所以 依据部 分是成 立的。 
归纳。 而对 于归纳 部分， 要 看看拓 扑次序 中的第 / 个门。 假设门 / 的输 入是 /, 、 /2 、… 、及。 如 
果/7 .是电 路 的输入 X， 那么 令对应 输入心 的表达 式&是 X。 如 果心是 其他某 个门的 输出， 那么该 
门 在该拓 扑次序 中一定 先于第 / 个门， 这表示 我们已 经为该 门的输 岀构建 了某个 表达式 。 设与 
门湘 关联的 运算符 为沒， 么 对应门 / 的表达 式就是 外仏馬 ，… ，馬） 。 在沒 是约定 使用中 缀表示 
法的 二元运 算符的 一般情 况下， 门 / 的表达 式就可 以写为 (巧) 外尽） 。虽 然根 据运算 符的优 先级这 
两个 括号也 有可能 是不必 要的， 但为 了安全 起见还 是用了 括号。 

♦ 示例 13.4 

现在 要利用 门的拓 扑次序 aSCDE 为图 13-2 所 示的电 路确定 输出表 达式。 首先， 我们 要看看 
AND 门 ^4， 它 的两路 输人来 自电路 的输人 x 和 y， 所以与 J 的输 岀对应 的表达 式就是 xy。 

门 5 是输人 x 的反 相器， 所 以它的 输岀是 I。 同样， 门 C 的输 岀是 y。 现在可 以处理 andOd 
了， 它的 输入是 S 和 C 的 输出。 因此， 对应门 输出的 表达式 为可。 最后， 门 E 是 OR 门， 它的输 
入是 J 和乃的 输出。 因此要 把这两 个门的 输岀用 OR 运算 符连接 起来， 从 而得到 表达式 x7  + 巧 7, 
作 为对应 门五输 出的表 达式。 因 为五是 电路唯 一的输 出门， 所以 该表达 式也是 电路的 输出。 回想 
一下， 图 13-2 所 示的电 路整数 是用来 识别布 尔函数 的。 很容易 验证我 们为门 对辱岀 的这个 
表 达式与 x  =  y 是等 价的。 

♦ 示例 13.5 

在之 前的例 子中， 我 们的电 路都只 有一路 输岀， 而且 电路本 身就构 成了一 棵树。 但 这些条 
件一 般而言 是不成 立的。 我们 现在要 介绍一 个设计 多输出 电路的 例子， 而 且其中 一些门 的输出 
会用 作若干 个门的 输人。 回想 一下， 第 1 章中讨 论过用 一位加 法器构 建一个 计算二 进制数 字加法 
的 电路。 一位加 法器电 路有表 示要相 加的两 个数字 中某一 特定位 的两路 输人: C 和 y。 除此 之外， 
它还 有第三 路输入 c， 表 示从其 右侧相 邻位置 （低 一位的 位置） 到该位 的进位 输入。 而一 位加法 
器 会生成 以下两 位作为 输出。 
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(1)  和值位 Z， 当 X、 y 和 c 中有奇 数个是 1 时它 的值为 1。 

(2)  进位 输出位 A 当 jc、 和 c 中有 两个或 三个是 1 时它 的值为 1。 

在图 13-9 中， 我 们看到 了对应 一位加 法器和 值函数 z 与进 位输 出函数 d 的卡 诺图。 在 8 个可能 
的最小 项中， 其中有 7 个岀现 在对应 z 或 d 的函 数中， 而只 有一个 xyc 是同 时岀现 在两者 之中。 

yc  yc 


r\r\  r\  -i  i  -t  ~t  r\ 

uu  u 丄  丄丄  丄 u 


⑻和 z 


00 

01 

11 

10 

0 

0 

0 

1 

0 

1 

0 

1 

1 

1 

(b) 进 位输出 d 


图 13-9 对应 和值函 数和进 位输出 函数的 卡诺图 

图 13-10 展示了 为一位 加法器 系统设 计过的 电路。 首先 要利用 顶部的 3 个反相 器为电 路的输 
入 反相。 然 后为输 岀中所 需的各 个最小 项构建 AND 门。 这些门 编号为 1 到 7, 而且 这些整 数表明 
了 它的输 人中按 次序有 哪些是 “ 为真” 的电 路输人 X、 j;、 C， 以及有 哪些是 “互 补的” 输入 ，元、 
y、 5。 也就 是说， 把 这个整 数写成 3 位的 二进制 数字， 并 用这几 位按次 序表示 U 和 C。 例如， 
门 4, 或 者说是 (100)z， 其输人 X 为真， 而输入 是互 补的， 也就 是说， 它产生 的输出 表达式 
是 X%。 请 注意， 这里是 没有门 0 的， 因 为每路 输岀都 不需要 最小项 jyj。 


图 13-10  — 位加法 器电路 
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最后， 电路 的输出 z 和提由 底部的 OR 门组 合的。 对应 z 的 OR 门 的输人 来自最 小项中 z 为真的 
各个 AND 门 的 输岀， 而对应 的 OR 门 的输 入也是 用类似 方式选 择的。 

现在 来为图 13-10 所示的 电路求 输出表 达式。 我们 所使用 的拓扑 次序是 反相器 在前， 接着是 
AND 门 1、 2、 …、 7， 以 及最后 的对应 z 和 d 的 OR 门。 首先， 这 3 个反相 器的输 岀表达 式显然 是无、 
歹 和 J。 然后， 我们 已经提 过如何 为这些 AND 门选择 输入， 以及各 门输出 对应的 表达式 与门编 
号的 二进制 表示之 间是如 何相关 联的。 因此， 门 1 的输岀 表达式 就是砰 C。 最后， OR 门 z 的输岀 
是对门 1、 2、 4、 7 的 输出表 达式求 OR， 也就是 

xyc-h  xyc  +  xyc  +  xyc 

同样， 对应 d 的 OR 门的 输岀 是对门 3、 5、 6、 7 的 输岀表 达式求 OR， 即 

xyc  +  xyc  +  xyc  +  xyc 

这里 留一道 习题给 大家， 证明 该表达 式与如 下表达 式是等 价的。 

yc  +  xc  +  xy 

提示 一下， 如果我 们从对 应派] 卡诺图 着手， 就能得 到该表 达式。 


电路图 的约定 

如果电 路像图 13-10 中 所示的 那样复 杂时， 就要 拿出一 项实用 的约定 来简化 绘图。 我们经 
常 需要让 “ 电线” （输 出和输 入之间 的线） 交叉， 又 不表示 这些交 叉的线 是同一 条线。 因此， 
电路的 标准约 定是这 样的： 除 非在线 路相交 的位置 画上一 个点， 否 则相交 的线路 不是连 通的。 
例如， 虽 然从电 路输入 y 出发的 垂直线 与标号 jc 或 无的水 平线有 交叉， 但它们 是不连 通的。 它与 
标号为 7 的水平 线是连 通的， 因 为在相 交的位 置画上 了点。 


13.4.3  习题 

(1)  为以 下布尔 函数设 计电路 如果 可以把 由相同 运算符 连接的 3 个 或更多 操作数 组合在 一起， 就不需 
要限 制自己 只使用 2 路输人 的门。 

⑻ x  +  7  +  z 。 提示： 将 该表达 式视为 OR  (  ) 。 

(b)  x_y  +  xz  +  _yz 。 

(c)  x  +  (两 Cv  +  z) 。 

(2)  为图 13-11 中 的各电 路计算 对应各 个门的 逻辑表 达式。 电路输 岀的逻 辑表达 式又是 什么？ 为电路 (b) 
构造 只使用 AND、 OR 和 NOT 门 的等价 电路。 

(3)  证 明示例 13.4 和 13.5 中用 到过的 以下重 言式。 

(a)  (xy  +  xy)  =  (x  =  y) 

(b)  (xyc  +  xjc  +  xyc  +  xyc)  =  (yc  +  xc  +  xy) 


芯片 

芯片通 常含有 若干结 合起来 可用于 构建门 的材料 “ 层”。 线路可 以在任 何一层 布设， 把门相 互连接 
起来， 不同 层上的 线路通 常可以 交叉而 不互相 影响。 在 1994 年， 芯片的 “特征 尺寸” （大 体上就 是电线 
的最小 宽度） 通 常小于 二分之 一微米 （ 1 微米是 0.001 毫米， 或者 说大约 0.00004 英 寸）。 门 可以构 建在这 
若 干微米 见方的 区域中 。① 


① 当今 的芯片 制造工 艺已经 达到纳 米级的 水平。 一 译者注 
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制造 芯片的 过程是 很复 杂的。 例如， 有一 步是把 薄薄一 层光致 抗蚀剂 （ photoresist ) 沉 积在整 个芯片 
上。 然 后要用 到某层 上所需 功能的 底片。 通常 用光或 是电子 束照射 底片， 被 电子束 直接照 射到的 那层会 
被蚀 刻掉， 只留下 所需的 电路。 


(a)  (b) 

图 13-11 习题 (2) 的电路 


13.5 电路的 一些物 理限制 

现在， 很 多电路 都是以 “ 芯片” 或者 说集成 电路的 形式构 建的。 大量 的门， 可能有 多达数 
百万 的门， 以及 连接这 些门的 线路， 被 构建在 一块一 厘米见 方的半 导体和 金属材 料上。 构建集 
成电路 的各种 “ 技术” 或者 说方法 都为设 计高效 电路之 路施加 了不少 约束。 例如， 正如 我们之 
前提 到的， 某 些类型 的门， 比如 AND、 OR 和 NOT, 就要比 其他类 型的门 更容易 构建。 

13.5.1 电 路速度 

对 每个门 而言， 在接 收到输 入的时 间和发 送岀输 岀的时 间之间 都存在 延迟。 这一延 迟可能 
只有 几纳秒 （ 1 纳秒是 KT9 秒）， 不过在 复杂的 电路， 比如 在计算 机的中 央处理 器中， 即 便是在 
执行 简单指 令时， 信息 也会在 很多层 门之间 传送。 由于现 代计算 机能在 远小于 1 微秒 （ 即 1(T6 秒） 
的时间 内执行 指令， 因 此值在 传递过 程中必 经之门 的数量 显然必 须控制 到最低 限度。 

因此， 对组 合电路 而言， 任 何从输 入到输 出的路 径上安 放门的 最大数 量都是 一种衡 量性能 
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的 标准， 就类 似于程 序的运 行时间 那样。 也就 是说， 如 果我们 希望电 路能迅 速计算 输出， 就必 
须 把表示 电路的 图中最 长路径 的长度 减少到 最小。 电 路的延 迟是最 长路径 上门的 数量， 也就是 
说， 该最长 路径的 长度加 1 就是 延迟。 例如， 图 13-10 所示的 加法器 延迟是 3, 因为 从输人 到输出 
的最 长路径 经过了 一个反 相器， 然后 是一个 AND 门， 最 后经过 了一个 OR 门， 这样 的路径 在该电 
路 中有很 多条。 

请 注意， 和运 行时间 一样， 电路延 迟也只 是一种 “数 量级” 的量。 不 同的技 术会让 接受某 
个门 的输入 以产生 该门输 岀的过 程花费 不同的 时间。 因此， 如 果有两 个延迟 分别为 10 和 20 的电 
路， 那么 可知， 如 果它们 是用相 同技术 实现， 而且 其他因 素也都 相同， 那 么第一 个电路 所花的 
时 间就是 第二个 电路的 一半。 不过， 如 果用更 快的技 术实现 第二个 电路， 那么它 有可能 战胜用 
原技术 实现的 第一个 电路。 

13.5.2 大 小限制 

构建电 路的开 销大致 上是与 电路中 门的数 量成正 比的， 因 此我们 很乐意 减少门 的数量 。此 
外， 电路的 大小也 会影响 到它的 速度， 而且 小型电 路往往 运行得 更快。 一般 来说， 电路 所具有 
的门 越多， 芯片 上被占 据掉的 面积就 越大。 使用较 大面积 至少有 如下两 项负面 影响。 

(1)  如 果面积 较大， 就需要 较长的 线路来 连接相 隔较远 的门。 线路 越长， 信号 从线路 一端传 
导到 另一端 所需的 时间就 越长。 这种传 播延迟 （ propagation  delay ) 是 电路中 除了门 “计 算”输 
出 所花时 间之外 的另一 个延迟 来源。 

(2)  芯片的 大小也 是有限 制的， 因 为芯片 越大， 就越 有可能 存在导 致芯片 不合格 的瑕疵 。如 
果 把电路 分散在 若干芯 片中， 那 么连接 这些芯 片的线 路会带 来严重 的传播 延迟。 

结论 就是， 把电路 中门的 数量控 制在较 低水平 会带来 明显的 好处。 


1 3.5.3 扇 入和扇 出限制 


电路设 计中的 第三个 限制源 自物理 现实。 如 果门具 有过多 输入， 或者 门的输 出连接 到过多 
的 输入， 就会为 此付岀 代价。 门 的输入 数被称 为扇入 （ fan-in  )， 而 门的输 岀所连 接到的 输入的 
数 量就叫 作扇出 （fan-out)。 尽管原 则上讲 扇人或 扇出是 存在限 制的， 但 实际应 用中， 具 有较大 
扇入和 （或） 扇岀 的门要 比那些 扇入和 扇岀较 小的门 更慢。 因此， 我们要 试着在 设计电 路时对 
扇 人和扇 出加以 限制。 

♦ 示例 13.6 

假 设某计 算的寄 存器是 32 位的， 而 且我们 想用电 路实现 COMPARE 机器 指令。 必须构 建的内 
容 之一是 测试寄 存器是 否全为 0 的 电路。 这一 测试使 用具有 32 路 输人的 OR 门 实现， 每路 输入对 
应寄 存器的 一位。 输入为 1 就 表示该 寄存器 存放的 并不是 0, 而输岀 0 就意味 着它存 放的是 0。 ® 如 
果要用 1 来表 示问题 “寄存 器是否 存放着 0”  的肯定 回答， 那 么就要 用反相 器或者 NOR 门 来为输 
岀求补 。 

不过， 扇 入达到 32 —般 来说远 高于我 们想要 的值。 假 设要限 制自己 只使用 扇入为 2 的门 。这 
个限制 可能太 低了， 不过这 里只是 为了举 例说明 问题。 首先 要问， 如果需 要计算 n 路输 入的 0R， 
那么 需要多 少个两 输人的 OR 门？ 显然， 每 个两输 入的门 都会把 两个值 结合成 一个值 （它 的输 


①严格 地讲， 这 一结论 只有在 2 的 补码表 示中才 成立。 在一 些其他 的表示 法中， 存在两 种表示 0 的 方法。 例如 ，如 
果 用符号 幅度来 表示， 就 只需要 测试后 3 1 位 是否为 0。 
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出）， 因此 会把我 们计算 《 路输 人的 OR 所 需的输 人数减 1。 在使用 了《_1 个门 之后， 我们 会得到 
一 个值， 如果 电路设 计得当 的话， 这个值 就是所 有《 个原来 的值的 OR。 因此， 至 少需要 31 个门 
来计算 Xp  x2 、…、 x32 这 32 位的 OR。 

图 13-12 展 示了实 现这种 OR 的一 种简单 做法。 在 这种方 法中， 我 们用左 结合的 方式为 这些位 
分组。 各 个门的 输出会 提供给 下一个 门作为 输人， 该 电路的 图中有 一条含 31 个门的 路径， 因此 
该 电路的 延迟是 31。 


图 13-12 为 32 位取 OR 的缓 慢方式 


图 13-13 展示 了一种 更好的 方式。 具有 5 层 的完全 二叉树 使用了 同样的 31 个门， 不过 延迟只 
有 5。 因 此可以 预期图 13-13 所示 电路的 运行速 度是图 13-12 所示 电路的 6 倍。 其他 影响速 度的因 
素可能 让这个 倍数比 6 小， 但是即 便是对 32 位这样 “小” 的位数 来说， 这种 聪明设 计也明 显要比 
之前 的简单 设计来 得快。 

如果不 能马上 “ 看岀” 使用完 全二叉 树作为 电路的 技巧， 也可以 利用分 治范例 得出图 13-13 
所示的 电路。 也就 是说， 要取 21 位的 OR, 可以 把这些 位等分 成各含 2H 位的 两组。 这两 组所对 
应的电 路通过 最终的 OR 门， 如图 13-14 所示。 当然， 对应依 据情况 A  =  1  (即 两路 输入） 的电路 
不 是用分 治法得 到的， 而 是使用 单个两 输入的 OR 门。 
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X\  X2  Xs  X4  X5  Xq 


X7  ^8 


^29^30  ^31^32 


图 13-13  OR 门 的完全 二叉树 

^1  ^2  ^n/2  ^n/2+1  ^n/2+2 


图 13-14 把 分治法 用于电 路设计 
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13.5.4  习题 

(1) * 假设我 们使用 扇人为 々的 OR 门， 并且想 为《路 输人取 OR， 其中 n 是 々的 乘方。 这种电 路可能 达到的 
最小 延迟是 多少？ 如果使 用如图 13-12 所示 朴素的 “ 级联” 电路， 延 迟会是 多少？ 

(2)  * 设 计分治 电路执 行以下 运算。 每种电 路的延 迟各是 多少？ 

(a)  给 定输人 Xp  x2 、…、 x„ ， 当 且仅当 所有输 入都是 1 时产 生输出 1。 

(b)  给 定输人 ％、 x2、 …、 和乃、 yn , 当且 仅当对 /=1、 2、 …、 «有\= 乃时， 输岀是 1。 提 
示： 使用图 13-2 所示电 路测试 两路输 人是否 相等。 

(3)  * 即 使输人 数不是 2 的 乘方， 图 13-14 中的分 治法也 是起作 用的。 那么 依据就 一定要 包括两 输入或 
三 输人的 集合， 三输人 集合是 由两个 OR 门处 理的， 假设我 们要把 门的扇 人严格 限制为 2, 就要用 
一个门 的输岀 作为另 一个门 的一路 输人。 这种 电路的 延迟是 多少， 将 其表示 为输人 数量的 函数。 

(4)  正 选突击 队准备 就绪、 意 志坚定 并能够 岀击。 假设有 n 个突击 队员， 而且电 路输人 6、 ％和七 分别 
表示第 / 个突击 队员是 否准备 就绪、 意 志坚定 并能够 岀击。 只有 当所有 突击队 员准备 就绪、 意 志坚定 
并 能够岀 击时， 我 们才派 该突击 队发动 袭击。 设计 分治 电路， 表 示我们 能否派 该突击 队发动 袭击。 

(5) * 候补突 击队 （顺 着习题 (4) 的 思路） 没 有这么 专业。 如果 各突击 队员处 在准备 就绪、 意志 坚定或 
能够 岀击的 状态， 就派 这支队 伍发动 袭击。 其实， 即便至 多有一 个突击 队员既 没有准 备就绪 ，也 
不意志 坚定， 并且 不能够 岀击， 我 们也派 岀这支 队伍。 使用 与习题 (4) 一样的 输人， 设计能 表示我 
们能 否派候 补突击 队发动 袭击的 分治 电路。 

13.6 分治加 法电路 

将两个 数字相 加的电 路是计 算机的 关键部 分之一 。尽 管实 际的微 处理器 电路所 做的事 更多， 
但我 们这里 要通过 设计将 两个非 负整数 相加的 电路， 研究该 问题的 本质。 这一问 题是一 个相当 
有启 发性的 分治电 路设计 示例。 

我 们可以 按照若 干种连 接方法 中的某 一种， 用《 个一 位加法 器构建 〃位数 字的加 法器。 假设 
使用图 13-10 所示 电路作 为一位 加法器 电路。 该 电路的 延迟是 3, 接近我 们能达 到的最 低延迟 ^  ® 
最简单 的加法 器构建 方式是 我们在 1.3 节中 看到过 的行波 进位加 法器。 在该电 路中， 各一 位加法 
器的 输出都 要称为 下一个 一位加 法器的 输入， 所以 把两个 〃位数 字相加 会带来 3«的 延迟。 例如， 
如果是 /7  =  32 的 情况， 那 么该电 路的延 迟就是 96。 

13.6.1 递归加 法电路 

如果使 用分治 策略， 设计处 理《/2 位的 电路， 并使 用两个 这样的 电路以 及其他 一些补 充电路 
构成 《 位加 法器， 就可以 让设计 出的加 法器电 路的延 迟显著 减少。 在示例 13.6 中， 我们讨 论过使 
用 两输入 OR 门为很 多位取 OR 的分治 电路。 这 是个特 别简单 的分治 法应用 示例， 因 为各个 更小的 
电 路执行 的刚好 是所需 的功能 （OR  )， 而 且子电 路的输 出组合 是非常 简单的 （它 们被 提供给 OR 
门）。 这两 个大小 减半的 电路可 以同时 （并 行） 处理 它们的 工作， 所以它 们的延 迟不会 叠加。 

对 加法器 来说， 我们需 要完成 一些更 微妙的 工作。 比较 简单的 做法是 使用同 样的大 小减半 
的 加法器 电路将 左半部 分的位 （高 序位） 相加， 并把 右半部 分的位 （低 序位） 相加。 不过 ，与 《 
位 OR 的 例子中 可以独 立地处 理左半 部分和 右半部 分不同 的是， 对 加法器 来说， 似 乎要在 右半部 


① 通 过在全 加器之 外为所 有输入 求补， 然后 在全加 器中计 算进位 和它的 补数， 就 可以设 计更为 复杂但 延迟为 2 的一 
位 加法器 电路。 
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分完成 计算， 并如图 13-15 所示把 进位传 递给左 半部分 的最右 位之后 ，左 半部 分才可 以开始 计算。 
如 果这样 的话， 我们会 发现， 这种 所谓的 “ 分治” 电路 其实就 和行波 进位加 法器是 一样的 ，而 
且 根本没 有改善 延迟。 


Zl  Z2  ...  Zn/2  Zn/2+l  Zn/2+2  •  .  •  Zn 


图 13-15 无 效的加 法器分 治设计 

我 们需要 认识到 的加法 “诀窍 ”是， 在要 计算的 不仅是 和的条 件下， 我们可 以在不 知道右 
半部分 进位输 出的情 况下计 算左半 部分。 这里就 需要回 答两个 问题。 第 一个， 如 果没有 进位进 
入左 半部分 的最右 位置， 和会是 多少， 以及第 二个， 如果存 在进位 输入， 和会是 多少？  ® 然后就 
可 以让电 路的左 半部分 和右半 部分同 时计算 它们的 答案。 一般 两个部 分的计 算都已 完成， 就可 
以弄 清是否 有从右 半部分 到左半 部分的 进位。 这会告 诉我们 哪个结 果是正 确的， 而且再 经过三 
个 单位的 延迟， 就 可以为 左边选 出正确 答案。 因此， 把《 位相加 的延迟 只比把 《/2 位相加 的延迟 
多 3, 这 样就使 电路的 延迟是 3(l  +  log2«)。 对 《=32 来说， 这要 比行波 进位加 法器好 很多了 ，分 
治加 法器的 延迟是 3(1  +  log2  32)  =  3(1  +  5)  =  18  , 而行波 进位加 法器的 延迟是 96。 

更 为准确 地讲， 我们将 《 位加法 器定义 为具有 表示两 个《 位整数 的输入 jc2 、…、 \和 
少1、 少 2、 …、 凡以 及如下 输岀的 电路。 

(1)  &、 …、 \ ， 输入的 《 位和 （不 包括最 左位置 的进位 输出， 即不 包括超 出属于 & 和乃 的 
位 置）， 假设最 右的位 置 （ ^和凡的 位置） 没 有进位 输入。 

(2)  V  \ 、…、 tn, 输入的 n 位和， 假 设最右 的位置 有进位 输人。 

(})p, 进位 传送位 （ carry-propagatebit), 在假 设最右 位置有 进位输 人的情 况下， 如 果最左 
位置存 在进位 输岀， 则它 的值是 U 

(4)g, 进位 发生位 （ carry-generatebit ), 即 便最右 位置没 有进位 输入， 如果最 左位置 有进位 
输出， 其值为 1。 

要注 意到有 g 4 /? ， 也就 是说， 如果 g ■是 1， 贝! 一 定是 1。 不过， g ■可 以是 0， 而同时 仍是 1。 
例如， 如果 jc 是 1010 …， 而 是 0101 …， 那么 g  =  0, 因为 在没有 进位输 人时， 求岀的 和全是 1， 而 
且最左 位置没 有进位 输岀。 另一 方面， 如果最 右位置 有进位 输入， 那么后 《 位的和 全部是 0, 而 
且最 左位置 有进位 输出， 因此 ^=1。 

我 们要为 2 的乘方 《 递归 地构建 《 位加 法器。 

依据。 考虑 《  =  1 的情 况。 这里 有两路 输入， jc%, 而且 需要利 用以下 逻辑表 达式计 算四路 
输岀 ■?、 L  p^Wg： 


①请 注意， “存 在进位 输人” 表 示进位 输入是 1， 而 “没 有进位 输人” 意味 着进位 输入是 0。 
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s  =  ^  +  xy 
t  =  xy  +  xy 
g  =  xy 
p  =  x  +  y 

要 知道这 些表达 式为什 么是正 确的， 首先 要假设 所考虑 的这个 位置没 有进位 输入。 当 x、_y 
和 进位输 入中有 奇数个 1 时就是 1 的和 值位， 在 X 和 中 刚好有 一个是 1 的情况 下才是 1。 上 述对应 ^ 
的 表达式 显然具 有这一 属性。 此外， 在没有 进位输 入的情 况下， 只有在 x 和: f 都是 1 时才会 有进位 
输岀， 这就解 释了上 面对应 g 的表 达式。 


现在 假设存 在进位 输入。 那么对 X、 ^和 进位输 人中有 奇数个 1 的 情况， 就 一定是 x 和 j； 同为 1 
或 同不为 1， 这解释 了对应 (的表 达式。 还有， 现 在如果 X 和 中有 一个是 1 或者两 个全是 1， 就会 
有 进位输 出了， 这 就说明 了对应 ^ 的表达 式是正 确的。 对应该 依据情 况的电 路如图 13-16 所示。 
它从 思路上 讲与图 13-10 所示 的全加 器是类 似的， 不过 实际上 它多少 要简单 一些， 因为它 只有两 
路 输入。 

归纳。 归纳步 骤如图 13-17 所示， 其中 用两个 《 位加法 器构建 了一个 2« 位加 法器。 2« 位加法 
器是 由两个 《 位加 法器， 加上 两块图 13-17 所示的 标号为 FIX 的 电路组 成的， 其中 FIX 电路 是用来 
处 理以下 两个问 题的。 

(1)  为 2«位 加法 器计算 进位传 送位和 进位发 生位。 

(2)  调整 s 和? 的左半 部分， 以考虑 是否具 有从右 半部分 到左半 部分的 进位。 
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^1  Vi  Vn  $n+l?/n+l  工 2n  V2n 


9  P  ^1  ^1  •  •  •  Sn  tn  5n_(_i  tn-\-l  ^2n  ^2n 

图 13-17 分治加 法器设 计草图 


首先， 假设 2« 位加 法器整 个电路 的右端 有进位 输入。 然后， 如 果以下 两个条 件有任 何一个 
成立， 那么整 个电路 左端会 有进位 输出。 

(a)  加法 器的左 半部分 和右半 部分都 会传送 进位， 也就 是说， pipR 为真。 请 注意， 这一表 
达式 包含了 右半部 分产生 进位， 而左 半部分 传送该 进位的 情况。 那么〆 〆 为真， 但〆 4〆， 

所以 (PLPR+PLPR) 三  PLPR。 

(b)  左半部 分产生 进位， 也就 是说， 〆 为真。 在 这种情 况下， 左端进 位输岀 的岀现 并不取 
决于右 端是否 有进位 输人， 也不 取决于 右半部 分是否 产生了 进位。 

因为， 对应 2« 位加法 器的进 位传送 位;? 的表 达式是 

p  =  gL  +pLpR 

现 在假设 2« 位加 法器的 右端没 有进位 输人。 那 么只有 岀现了 以下两 种情况 之一， 2« 位加法 
器的左 端才会 有进位 输出。 

(a)  右 半部分 产生了 进位， 而 且左半 部分传 送了该 进位； 

(b)  左 半部分 产生了 进位。 

因此， 对应 g 的逻 辑表 达式是 

g  =  gL+pLgR 

现在把 注意力 转到这 些^和 纟上。 首先， 右半部 分的位 与右侧 〃位加 法器的 输出相 比没有 改变， 
因为 左半部 分的岀 现不会 对右半 部分造 成影响 。因此 ，对 /  =  1 、 2 、 …、 《 ，有 =  < ， 而且 ^  。 

不过， 左 半部分 的位必 须经过 修改， 从 而把右 半部分 产生进 位的情 况考虑 在内。 首先 ，假 
设 2« 位加法 器的右 端没有 进位。 这种情 况应该 是由& 告诉 我们， 从 而可以 为左半 部分的 \  (也 
就是 ~  &、•••、&  ) 设计表 达式。 因 为右半 部分没 有进位 输入， 所以 只有在 右半部 分生成 了进位 
的情 况下， 左半 部分才 有进位 输人。 因此， 如果〆 为真， 那么 &=幸 （因 为幸会 告诉我 们当左 
半 部分有 进位输 入时会 发生什 么）。 我 们可以 将其写 为逻辑 表达式 

„  ^L—R  .  ，LR 

其中， /  =  1、 2、 … 、”。 


580  第 13 章 利用 逻辑设 计计算 机元件 


最后， 要 考虑当 2«位 加法器 的右端 有进位 输人时 会发生 什么。 现在可 以按照 如下方 式解决 
左半 部分纟 的值的 问题。 如果 右半部 分传送 了进位 的话， 也 就是如 果；/ =1， 左 半部分 就会有 
进位 输入。 因此， 如果〆 为真 ，贝 U 会接受 $ 的值， 而 如果〆 为假， 就 会接受  <  的值 。写 
成逻 辑表达 式就是 

h  =  siPR+tiPR 

概括 起来， 图 13-17 中标有 FIX 的方 框所表 示的电 路会计 算如下 表达式 

P  =  gl+PLPR 
g  =  gL+PLgR 

=sfgR  +tjJgR  , 其中 /=1、 2、 …、 《。 

砍#  +tt PR ， 其中/ =  1 、 2、 …、 ”。 

这些表 达式各 自能被 不超过 3 层 的电路 识别。 例如， 最后 那个表 达式只 需要图 13-18 所示的 电路。 

SiL  pR  tiL 


U 


图 13-18  Fix 电路的 一部分 


13.6.2 分治 加法器 的延迟 

设 乃⑹ 是 我们刚 设计的 《 位加 法器的 延迟， 可 以按照 以下方 式写出 表示乃 的递推 关系。 对依 
据情况 《  =  1 来说， 查看图 13-16 中 的依据 电路， 可 以得岀 延迟是 3。 因此， 乃(1)  =  3。 

现在要 看看图 13-17 中电路 的归纳 构造。 该电路 的延迟 是《位 加法器 电路的 延迟， 加上 FIX 电 
路的 延迟。 《 位加 法器的 延迟是 乃0)。 而为 FIX 电路设 计的各 表达式 都会带 来一个 不超过 3 层的简 
单 电路。 图 13-18 就是个 典型的 例子。 因此， 乃(2«) 要比 乃(《)多3。 所 以对应 /)(«) 的递推 关系是 

翊 =  3 

D(2n)  =  D(n)  +  3 

对 那些为 2 的乘方 的位数 来说， 该 递推关 系的解 有乃⑴ =3 ， D(2)  =  6  ,  £>(4)  =  9  ,  £>(8)=12, 
£)(16)  =  15  ,  Z)(32)  =  18  , 等等。 对 2 的乘方 《 来说， 该递 推关系 的解是 
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D(n)  =  3(1  +  log2  n) 

大家 可以用 3.11 节 的方法 检验。 特 别要说 的是， 请 注意， 对 32 位 加法器 而言， 延迟 18 要 远少于 
32 位行 波进位 加法器 的延迟 96。 

13.6.3 分治加 法器使 用的门 的数量 

我 们还应 该验证 门的数 量是否 合理。 设 (?(《)是《 位加 法器电 路使用 的门的 数量。 依据是 
G(l)  =  9, 数出图 13-16 所 示电路 中门的 数量就 可以得 出这一 数字。 然后 看到图 13-17 所 示电路 ，也 
就 是归纳 情况， 在两个 《位 加法器 的子电 路中有 2G ⑻个 门。 除了这 个量 之外， 还必 须加上 FIX 电 
路 中门的 数量。 可能要 反转〆 和 ，一 次， 然后 《 个&和 (.各 需要 3 个门 （两个 AND 和一个 OR) 来 
计算， 也就是 总共要 6«个 门。 在 这个量 之上， 要加 上为〆 和严 设置的 两个反 相器， 还必 须加上 
计算 g 和 各自需 要的两 个门。 因此 FIX 电路中 门的总 数量是 6«+心 这 样对应 G 的递推 关系是 

G(l)=9 

G{2n)  =  2G{n)  +  6n  +  6 

这里的 函数还 是只为 2 的乘方 《 定义。 G 的前 6 个 值如图 13-19 中的表 所示。 对 《=32, 我们看 
到电 路需要 954 个门。 对 2 的乘方 《 来说， 表示 G (…的 解 析式是 3«log2«  +  15«-6 ， 大家可 以利用 
3. 1 1 节中 的技巧 来证明 该表达 式是正 确的。 


n 

G ㈧ 

1 

9 

2 

30 

4 

78 

8 

186 

16 

426 

32 

954 

图 13-19 多种 《 位加法 器所使 用的门 的数量 


事 实上， 如果 所需要 的只是 32 位加 法器， 完全可 以用更 少的门 来实现 电路。 这 样的话 ，可 
知在第 32 位的 右边没 有进位 输入， 因此在 电路的 最后阶 段不需 要计算 p 以及屮 t2 、…、 ?32 的值。 
同样， 右半 部分的 16 位加 法器也 不需要 计算它 的进位 传送和 16 个? 的值， 而右侧 16 位加法 器右半 
部分的 8 位 加法器 不需要 计算它 的;? 和?， 等等。 

把 分治加 法器使 用的门 的数量 与行波 进位加 法器使 用的门 的 数量相 比是 很有意 思的。 我们 
在图 13-10 中设计 的全加 器电路 使用了  12 个门。 因此， 《位行 波进位 加法器 使用了  12« 个门， 而对 
«  =  32 来说， 这个数 字就是 384。 如 果记得 最右位 的进位 输入是 0, 还可以 省掉一 些门。 

可以 看到， 对 这种有 意思的 情况， 也 就是对 32 的情况 而言， 行波 进位加 法器尽 管要慢 
很多， 但使 用的门 的数量 却不到 分治加 法器的 一半。 此外， 后者的 增长率 0(nlog«) 要高 于行波 
进位加 法器的 增长率 0(«)， 所 以随着 〃的 增加， 门数量 的差别 会越来 越大。 不过， 这个 比率只 
是 0(log/7) 而已， 所 以门数 量的差 别并不 严重。 由于 这两种 电路所 需时间 （分 别是 0(«) 和 
0(log«) ) 的差别 要更为 明显， 某种分 治加法 器几乎 用在所 有的现 代计算 机中。 

13.6.4  习题 

(1)  按照本 节介绍 的设计 方法， 画岀把 4 位 (bit) 的数 字相加 的分治 电路。 

(2)  设计 类似图 13-18 的 电路， 计算图 13-17 中 加法器 的其他 输岀， 也就是 p、 g 和那些 
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(3)  料 设计接 受十进 制数字 输人的 电路， 其 中各位 数字是 4 个 给岀与 该十进 制数字 等价的 二进制 数字的 
输人表 示的。 而输岀 的是与 之等价 的二进 制表示 数字。 大家 可以假 设数字 （digit) 的 数量是 2 的 乘方, 
并 使用分 治法。 提示： 左 半部分 的电路 （高位 数字） 需要 来自右 半部分 （低位 数字） 的哪些 信息？ 

(4) * 证明， 对 2 的 乘方? 7 而言， 如下递 推关系 的解是 Z) ⑻ =  3(l  +  log2n)。 

D ⑴ =  3 

DO)  =  /)(«) +  3 

(5) * 证明， 对 2 的乘 方《 而言， 如下递 推关系 的解是 G ⑻ =  3nlogj  +  15«-6。 

G(l)  =  9 

G(2n)  =  2G{n)  +  6«  +  6 

(6) ** 我们注 意到， 如果 所需要 的只是 32 位加 法器， 就不 需要图 13-19 给岀 的全部 954 个门。 原因 在于, 
可 以假设 32 位中 最右的 位置没 有进位 输人。 那么实 际上需 要多少 个门？ 

13.7 多路 复用器 的设计 

多路 复用器 （multiplexer  ) 通常 简写为 MUX， 是一种 常见的 计算机 电路， 它接受 d 路 控制输 
入， 比 方说是 巧、 x2 、…、 jcd ， 以及 2d 路数据 输入， 比 方说是 凡、 乃 、…、 _y2M， 如图 13-20 所示。 
MUX 的 输岀等 于特定 的数据 输入， 输入 Aw..y2。 也就 是说， 把 控制输 入当作 0 到 2rf-l 范围内 
的 二进制 整数， 该 整数是 要传递 给输岀 的数据 输入的 下标。 


数 据输入 


yo  yi  … V2d~i 


X\ 

x2 

控制 输入. _• 

Xd 


y(xiX2-'Xd)2 
图 13-20 多 路复用 器电路 概要图 


♦ 示例 13.7 

分治加 法器中 计算& 和纟 的电 路就是 d  =  l 的 多路复 用器。 例如 对应& 的 公式是 
s^gR  +t^gR  , 而它 的电路 概要图 就如图 13-21 所示。 这里， 〆 所扮演 是控制 输入; ^的 角色， 4 
则是数 据输入 7。 ， 而  <  是数据 输人少 t 。 

再举个 例子， 具有 两个控 制输人 &和& ， 以及 4 个数 据输入 凡、 ％、 和 _y3 的 MUX 的输 
出 公式是 


少〆 士  +  +  72^1^2  +  73^1^2 
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Si 


ti 


Si  =  SiLgR  +  ULgR 
图 13-21  1- 复用器 

这里对 应各数 据输入 的都分 别只有 一项。 而 具有数 据输入 ％. 的项也 含有两 个控制 输入， 要么是 
否 定的， 要么 是非否 定的。 通过把 / 写为 4 立的 二进制 整数， 我们可 以推断 出哪些 控制输 入是否 
定的。 如果二 进制的 / 第/个 位置是 0, 那么； 就是否 定的， 而如果 第/个 位置是 1， 就不为 ~ 取反。 
请 注意， 这一规 则对任 意数量 ^ 的控 制输入 都是有 效的。 

一种 简单的 多路复 用器设 计是使 用具有 3 级门 的电路 。在第 一级中 ，要计 算各控 制位的 否定。 
接下来 的一级 是一行 AND 门。 第 / 个门 会把数 据输入 ％. 与恰当 的控制 输入及 取反控 制输人 组合结 
合 起来。 因此， 除了控 制位被 置为啲 二进制 表示时 第汁门 的输岀 是％， 其他情 况下该 门的输 
出总是 0。 最后 一 •级是 一 •个 OR 门， 它 的输人 来自上 一 '级 的各 AND 门。 因 为所有 AND 门 中除了 一 •个 
之外输 岀都是 0, 而这唯 —— 个输 岀不为 0 的 AND 门， 比方说 是第 /个， 它的 输岀是 ％ ， 所 以电路 
的输出 就等于 & 。 d  =  2 时该电 路的样 子如图 13-22 所示。 


yo  yi  V2  y3 


图 13-22  d  =  2 的多 路复用 器电路 
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13.7.1 分 治多路 复用器 

图 13-22 所 示电路 的最大 扇入是 4,  一般来 说这是 可以接 受的。 不 过随着 d 逐渐 变大， OR 门的 
扇入 2d 之大 就变得 不可接 受了。 即 便是各 自只有 d  +  1 路 输入的 AND 门， 也 开始有 着无法 让人满 
意的大 扇入。 好在基 于对控 制位对 半分割 的分治 法让我 们可以 用扇入 至多为 2 的门 来构建 这样的 
电路。 此外， 假 如要求 所有电 路都是 用具有 相同扇 人限制 的门构 建的， 这 一电路 使用的 门就会 
少 很多， 而且几 乎和图 13-22 所示 的一般 电路一 样快。 

我们 把具有 « 控制 输入和 2d 路 数据输 入的多 路复用 器称为 4MUX， 那么这 类多路 复用器 
电路的 归纳构 建如下 所述。 

依据。 依据是 d  =  l 时 的多路 复用器 电路， 也就是 1-MUX， 如图 13-23 所示。 它由 4 个 扇入被 
限制为 2 的门 组成。 


yo  yi 


归纳。 归纳 是由图 13-24 所示 电路进 行的， 它是用 2"+1 个 4MUX 构建 了一个 24MUX。 请 
注意， 尽管 控制输 人的数 量只是 翻倍， 数 据输入 的数量 却变为 之前的 平方， 因为 22rf=(2rf)2。 
假设 24MUX 的控 制输入 需要数 据输入 ， 也就是 

i  =  {xxx2---xld)2 

图 13-24 中顶 部那行 4MUX 接 受一组 从某个 & 开始的 路数据 输入， 这 里/是 ¥的 倍数。 因此， 
如果用 低序的 ^ 个控 制位 \+1 、…、 来控制 各个义 MUX， 所 选择的 输入就 是各组 中的第 A 个 （各 
组 中最左 侧的输 入被记 为输人 0  )， 其中 

k  =  (Xd+l---X2d)2 

也就 是说， &是 由低序 那一半 中的位 表示的 整数。 
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?/0 …? /2d-l 


V2d--y2x2d~l 


?/(2d-l)2d  …? /22d-l 


^2d 


V(xiX2 - -X2d)2 

图 13-24 分 治多路 复用器 


底部 4MUX 的输 人是顶 部那行 4MUX 的 输出， 我 们刚得 出它们 是凡、 y2d+k  ,  _y2x2,+i、 …、 
y{2^l)2,+k o 底部的 4mux 是由 力 …; ^控 制的， 它 表示某 个二进 制整数 /， 也就是 j_  =  (v..&)2。 
因此底 部的多 路复用 器会选 择它的 箄/个 （最左 侧的输 入被记 作输人 0) 输入 作为其 输出。 因此 
被选定 的输入 是:^ 2,+it 。 

可以 按照如 下方式 证明# d+A  =  z_。 请 注意， 用 /乘以 2" 会 把/的 二进制 表示向 左移动 d 个位 
置。 也 就是说 y2rf=(jv.xdo-.o)2, 其 中这串 0 的 长度是 I 因此， vf+A： 的二 进制表 示就是 
{xx---xdxd+l---x2d)2  o 这 是因为 & 的 二进制 表示是 ， 而 且当这 个数字 被加到 最后是 d 
个 0 的 y2rf 时， 从右 起的第 4 立 显然没 有进位 输岀。 现 在可知 j2d+k  =  i, 因 为它们 有着相 同的二 
进制 表示。 因此图 13-24 所示的 24MUX 正确地 选出了  X,. ， 其中 /  =  (v"x2d)2。 

13.7.2 分治 MUX 的延迟 

可以通 过写出 适当的 递推关 系来计 算所设 计多路 复用器 电路的 延迟。 设乃 以) 是义 MUX 的 
延迟。 观察图 13-23 可知， 对 3  =  1， 延迟是 3。 不过， 要 得到更 紧密的 边界， 就要 假设所 有的控 
制 输人都 要经过 MUX 外的反 相器， 而且它 们不能 算在图 13-23 所 示反相 器的那 层中。 所 以在确 
定了 电路其 余部分 的延迟 之后， 要 在总延 迟上加 1， 从 而把所 有控制 输入的 反相产 生的延 迟计算 
在内。 因此， 我们的 递推关 系是从 乃(1)  =  2 开 始的。 

对 于归纳 部分， 我们 注意到 经过图 13-24 所示 电路的 延迟是 经过上 方那行 MUX 中任 何一个 
的 延迟， 加上 经过最 后一个 MUX 的 延迟。 因此， 乃 (2d) 就是 i^d) 的 两倍， 所 以递推 关系为 

m=2 

D{2d)  =  2D(d) 

解是很 容易得 出的。 我们有 £>(2)  =  4 ， £>(4)  =  8, 以8)  =  16, 而一般 来说就 是乃⑷ =  2d。 当然， 
严格 地讲， 这 一公式 只有在 ^ 是 2 的乘 方时才 成立， 不 过同样 的思路 也可以 用于任 意数量 的控制 
位 d。 因为我 们必须 加上为 控制输 人反相 所造成 的延迟 1， 所以 该电路 的总延 迟就是 2d +1。 
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现在考 虑简单 多路复 用器电 路( 每 个数据 输人对 应一个 AND 门， 其输出 都提供 给一个 OR 门）。 
正如 之前所 说的， 它的 延迟是 3, 与 d 无关， 不 过一般 来说不 可能这 样构建 电路， 因为最 终那个 
OR 门 的扇入 是不现 实的。 如 果坚持 将扇人 限制为 2 会怎 样呢？ 这样 一来， 有着 2d 路输入 的最后 
那个 OR 门会 被有着 d 层的 完全 二叉树 替代。 回想 一下， 这样 一棵树 将会有 2rf 个叶子 节点， 刚好 
就是 正确的 数量， 而这棵 树的延 迟是么 

我们还 要用由 扇入为 2 的 AND 门构成 的树替 代这些 AND 门， 因为 一般来 说这些 AND 门具有 
d  +  1 路 输人。 回想 一下， 在 使用具 有两路 输入的 门时， 每 使用一 个门就 会将输 入的数 量减少 1， 
所 以需要 ^ 个扇 入为 2 的门 才能把 d  +  1 路输入 减少到 1 路输人 。如 果将门 安排成 AND 门构成 的平衡 
二 叉树， 就需要 log2d  +  l 层。 在 加上为 控制输 入反相 的一层 之后， 就 得到总 延迟是 
d  +  l  +  (log2i/  +  l)。 如图 13-25 中的表 所示， 虽然这 与分治 MUX 那 2d +  1 的 延迟相 比差别 不大， 
但 该图还 是好意 地对其 进行了 比较。 


延迟 

d 

分治 MUX 

简单 MUX 

1 

3 

3 

2 

5 

5 

4 

9 

8 

8 

17 

13 

16 

33 

22 

图 13-25 两种 不同多 路复用 器设计 的延迟 


13.7.3 门 的数量 

本节 中要比 较简单 MUX 和分治 MUX 中门的 数量。 我们会 看到， 随着 d 的 增加， 分治 MUX 
所 含的门 明显要 更少。 

要计 算分治 MUX 中门的 数量， 可 以暂时 忽略反 相器。 我们 知道， 这 d 路控制 输人各 要被反 
相 一次， 所以最 后再在 得岀的 数量上 加濟尤 行了。 设 G(d) 是丄 MUX 中 （除反 相器之 外的） 用到 
的门的 数量。 那 么可以 按照如 下方式 给出它 的递推 关系。 

依据。 依据 情况是 d  =  l 的 情况， 如图 13-23 中 的电路 那样， 除了 反相器 之外有 3 个门。 因此 
G(l)  =  3。 

归纳。 对归 纳部分 来说， 图 13-24 中的 24MUX 是用 2d+l 个 4MUX 构 建的。 

因此， 递推关 系就是 

G(l)=3 

G(2d)  =  (2d  +l)G(d) 

正如 我们在 3 . 1 1 节 中看到 过的， 该递 推关系 的解是 

G(d)  =  3(2d  -1) 

这一递 推关系 的前 几个值 分别是 G(2)  =  9,  G(4)  =  45 和 G ⑻ =  765 。 

现在来 考虑在 只使用 扇人为 2 的 门时， 简单 MUX 使用 的门的 数量。 和之前 一样， 我 们会忽 
略为 控制输 入反相 所需的 ^ 个反 相器。 最后的 OR 门要用 一棵有 2d  -1 个 OR 门的 树代 替。 2rf 个 AND 
门 各会被 一棵有 ^ 个 AND 门的树 替代。 因此， 总 的门数 量就是 2rfW+l)-l。 该 函数要 比分治 MUX 
中 门的数 量多， 多 的幅度 大约是 W  + 1)/3 。 图 13-26 比较 了两种 MUX 中门的 数量， 每种 情况都 
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不包括 ^ 个反 相器。 


门数量 

d 

分治 MUX 

简单 MUX 

1 

3 

3 

2 

9 

11 

4 

45 

79 

8 

765 

2303 

16 

196605 

1114111 

图 13-26 两种 不同多 路复用 器设计 （不 包括反 相器） 的 门数量 


有关分 治的更 多内容 

本节的 多 路复用 器设计 所表示 的这种 分治算 法是一 种虽很 少见但 很强大 的形式 。大 多数分 
治的 例子都 会把问 题一分 为二。 这些 例子包 括归并 排序、 13.6 节中 设计的 快速加 法器， 以及用 
来 计算大 量位的 AND 或 OR 的 完全二 叉树。 在多 路复用 器中， 是用 i/  +  l 个 更小的 MUX 来 构建一 
个 24MUX。 换句 话说， 具有 《  =  22d 路数据 输入的 MUX 是由 v^  +  l 个小 MUX 构 建的。 


13.7.4  习题 

(1)  利用本 节介绍 的分治 技巧， 构建 

(a)  2-MUX 

(b)  3-MUX 

(2)  * 大家会 如何构 建那些 数据输 人的数 量不是 2 的 乘方的 多路复 用器？ 

(3)  * 利用 分治技 巧设计 独热码 解码器 （one-hot-decoder) 。 该电 路接受 路输人 巧 、 x2 、 ... 、 , 
并有 2" 路输岀 ％ 、 只 、 ... 、 。 这 些输岀 中 刚好有 一个是 1 , 具体 来说就 是满足 /  =  {Xl,x2,...,xd)2 
的 .v;。 那么 该电路 的延迟 （表 示为 的 函数） 是 多少？ 它要 使用多 少个门 （表 示为 d 的函 数）？ 提 
示： 有多种 方法。 一种 电路设 计方式 是为前 ^-1 路输 人使用 一个独 热码解 码器， 并将该 解码器 
的各输 岀分成 基于最 后一个 输人& 的两路 输岀。 第二 种方式 是假设 是 2 的 乘方， 从两个 独热码 
解码器 开始， 一个 对应前 c//2 路 输人， 而另 一个则 对应后 d/2 路 输人。 然 后恰当 地将这 些解码 
器的输 出结合 起来。 

(4)  * 通过 为各路 输岀创 建一个 AND 门， 并 为这些 门提供 恰当的 输人或 反相的 输人， 可 以构建 岀一种 
独 热码解 码器， 大家 在习题 (3) 中设 计的电 路与这 种显见 的设计 相比， 延迟和 门的数 量各是 多少？ 
如 果将大 扇人的 AND 门 用两输 人的门 代替， 那么 本题中 的电路 与习题 (3) 中设 计的电 路相比 又是什 
么 情况？ 

(5)  * 多 数电路 （ majority  circuit ) 接受 2d- 1 路 输人， 并只 有一路 输岀。 如果有 路或 路以上 的输人 
是 1， 那 么它的 输出是 1。 设计分 治多数 电路。 延迟 和门的 数量各 是多少 （表 示为 ^ 的函 数）？ 提示： 
和 13.6 节中的 加法器 一样， 利用计 算比我 们所需 更多的 电路能 最好地 解决该 问题。 特别要 指岀的 
是， 可以设 计接受 n 路输人 并具有 《  +  1 路输 岀凡、 乃 、…、 凡 的 电路。 如果 刚好有 / 个输 人是 1， 
输岀 就是 1。 然 后可以 用习题 (3) 中提到 的两种 方式中 的任意 一种归 纳地构 建多数 电路。 

(6)  *有 一种幼 稚的多 数电路 设计， 它 是通过 为每个 c/ 路输 人组设 置一个 AND 门来构 建的。 这种 多数电 
路的输 出是所 有这些 AND 门的 OR。 与习题 (5) 设计 的分 治电路 相比， 这 种幼稚 设计的 延迟和 门的数 
量各是 多少？ 如果 用两输 人门代 替这种 幼稚设 计中的 门呢？ 
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13.8 存 储单元 

在 结束逻 辑电路 这一主 题之前 ，我们 还要考 虑一类 非常重 要的时 序电路 。 存储单 元( memory 
element) 是 由一系 列的门 构成的 电路， 它 可以记 住它的 上一个 输人， 并将 这个输 人作为 它的输 
岀， 不 管这个 输入已 经给定 多久。 计算机 的主存 是由一 些特定 的位组 成的， 这些 位可以 存入值 
而 且会保 留它们 的值直 到另一 个值被 存入。 


图 13-27 就展 7K 了 一 •个 简单 的存储 单兀。 它是 由称为 /oad 的输人 控制的 Q  — •般 来说， /oati 的 
值是 0。 在 这种情 况下， 反相器 a 的输 岀就是 1。 因 为只要 有一路 输入是 0,  AND 门的输 岀就是 0, 
所以只 要/⑽^ 是 0， 则 AND 门 C 的输出 一 '定是 0。 

如果 =  0 而且门 d 的输出 （也 就是该 电路的 输岀） 是 1， 那么门 6 的 两路输 入都是 1， 这 
样 它的输 出也是 1。 因此， OR 门 d 的输入 之一是 1, 这 样它的 输出就 仍然是 1。 另一 方面， 假设 d 
的 输岀是 0。 那么 AND 门 6 的某一 输入是 0, 这意味 着它的 输岀是 0。 这使得 d 的 两路输 入都是 0, 
所 以只要 /0^«/=0,  d 的输 岀就会 保持为 0。 于是可 以得出 结论： H^load  =  0, 电 路的输 岀就可 
以 保持它 原来的 样子。 


真 正的存 储芯片 

我们 不应该 认为图 13-27 精确 地表示 了典型 的寄存 器位， 但 它也不 是很不 靠谱。 尽 管它也 
表示 了主存 的位， 至少原 则上讲 如此， 但 它们之 间还是 存在着 明显的 区别， 而且彳 艮多与 存储芯 
片 设计有 关的内 容都 涉及远 超本书 范围的 电子学 细节。 

因为 在计算 机和其 他类型 的硬件 中会用 到海量 的存储 芯片， 它 们的大 规模生 成已经 让一些 
存储百 万位或 更多位 的微妙 芯片设 计变为 现实。 想知道 存储芯 片的致 密性， 可以 回想一 下它的 
面积 大约是 1 平 方厘米 （ 1(T4 平方 米）。 如 果在这 样的芯 片上有 1600 万位， 那么每 一位所 占据的 
面积 就等于 6xl(T12 平 方米， 或 者说是 2.5 微 米见方 的一块 面积， 记住， 1 微米是 1(T6 米）。 如果 
线路 的最小 宽度， 或 者说线 路间的 空间是 0.3 微米， 这没有 留多少 空间给 电路构 建存储 单元。 
更糟 的是， 我们不 止要存 储位， 还 要从这 1600 万位 中选出 一位接 收值， 或是 读取这 1600 万位中 
某一位 的值。 这一选 择电路 还要占 据芯片 上不少 空间， 留给存 储单元 的空间 就更少 了。 


现 在考虑 /oao?  =  1 时的 情况。 反相器 《 的输出 现在是 0， 这样 一来， AND 门 的输出 也将是 0。 
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另 一 '方 面， AND 门 c 的第 一 '路 输人是 1， 所以 C 的 输出就 与输入 是相 同的。 同样， 因为 OR 门 d 的 
第一路 输入是 0， 所以 6? 的 输岀和 C 的输 岀是一 样的， 这和电 路输入 也是相 同的。 因此， 将 /Ofld 
置为 1 会使电 路的输 出变成 在把 /oW 变回 0 时， 电 路输出 会继续 在门时 似 之间 来回， 正 如前文 
讨论 过的。 

如果把 “电路 输人” 解释为 为 1 时 k 的值， 就可 以说图 13-27 中的电 路具有 与存储 单元相 
似的 行为。 如果幻 W 是 0, 那么 可以说 不管加 的值是 什么， 都不存 在电路 输入。 通过把 bad 置为 1， 
可 以让该 存储单 元接受 新值。 只要 /oad 是 0, 也就 是说， 只要此 电路没 有新的 输入， 该单 元就会 
保留这 个值。 

习题 

(1)  为图 13-27 所示 的存储 单元电 路画出 类似图 13-6 的时 间图。 

(2)  描述 一下， 在如图 13-27 所示的 存储单 元中， 如 果一个 a 粒子 击中反 相器， 并让门 a 的时 间在 一段很 
短 的时间 内与输 人相同 （这 段时间 很短， 并不足 以让信 号传遍 整个电 路）， 该电路 的行为 会是怎 样的。 

13.9 小结 

阅 读本章 之后， 大家 应该更 加熟悉 计算机 中的电 路以及 逻辑是 如何用 来设计 这种电 路的。 
特 别要说 的是， 本 章涵盖 了以下 要点： 

□什么 是门， 以 及门是 如何组 合起来 形成电 路的； 

□ 组合 电路与 时序电 路间的 区别； 

□ 如 何根据 逻辑表 达式设 计组合 电路， 以及 如何用 逻辑表 达式表 示组合 电路的 模式； 

□ 诸 如分治 法这样 的算法 设计技 巧是如 何用来 设计加 法器和 多路复 用器这 样的电 路的； 

□ 设计快 速电路 要考虑 的一些 因素； 

□ 简要 表示了 计 算机是 如何在 它的电 子电路 中存储 二进制 位的。 
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第 14 章 
谓 词逻辑 


现 在要把 注意力 转移到 一般化 的命题 逻辑， 也就是 “ 谓词” 逻辑 或者说 “ 一阶” 逻 辑上。 
谓词是 指返回 布尔值 的具有 0 个 或更多 变量的 函数。 因此， 谓 词可能 有时为 真有时 为假， 这取决 
于 其参数 的值。 例如， 我们 将看到 C 初 C，\G) 这 样的谓 词逻辑 原子操 作数。 其中， C 叹是谓 词名， 
而 C、 讶 PG 则是 参数。 可 以将该 表达式 视作图 8-1 中数据 库关系 “ 课程- 学号- 成绩” 的逻辑 表示。 
只要 C、 財 RG 满 足学号 S 的学生 在课程 C 中得 到成绩 G， 它 就返回 TRUE, 否贝 返回 FALSE。 

用谓 词代替 命题变 量作为 原子操 作数， 提供 的语言 要比只 涉及命 题的表 达式更 为强大 。其 
实， 谓词逻 辑的表 达力足 以构成 很多实 用编程 语言的 基础， 比如 Prolog  (  Programming  in  logic  ) 
和 8.7 节中 我们提 到过的 SQL 语言。 谓 词逻辑 还应用 在推理 系统或 “ 专家” 系 统中， 比如 自动化 
医疗 诊断程 序和定 理证明 程序。 

14.1 本章主 要内容 

我 们将在 14.2 节介绍 谓词。 谓 词在正 式地表 示思路 方面提 供了比 命题变 量强大 得多的 能力。 
虽然存 在重大 差异， 但 谓词逻 辑的设 计与第 12 章 中 命题逻 辑的设 计是可 以类 比的。 

□ 谓词逻 辑的表 达式可 以由使 用命题 逻辑运 算符的 谓词构 建 （ 14.3 节)。 

□  “ 量词” 是命题 逻辑中 没有类 比物的 谓词逻 辑运算 符 （ 14.4 节)。 我 们可以 利用量 词陈述 
某表 达式对 某个参 数的所 有值都 为真， 或 陈述该 参数至 少存在 一个值 使得该 表达式 为真。 
□ 谓词 逻辑表 达式的 “ 解释” 是谓 词和变 量可能 的含义 （ 14.5 节）， 它 们与命 题逻辑 中的真 
值赋 值是类 似的。 

□ 谓词 逻辑的 重言式 是指对 所有解 释都为 真的表 达式。 某些谓 词逻辑 的重言 式与命 题逻辑 
的重 言式是 类似的 （ 14.6 节）， 而另一 些则不 具相似 性 （ 14.7 节)。 

□ 谓词 逻辑中 的证明 可以用 与命题 逻辑证 明相类 似的方 式进行 （ 14.8 节和 14.9 节)。 

14. 10 节要讨 论谓词 逻辑与 计算问 题解答 有关的 含义， 我 们会发 现以下 现象。 

□ 命题是 重言式 并不说 明它在 某个证 明系统 中是可 证的。 

□ 特别 要指岀 的是， 哥德尔 不完备 性定理 表明， 存 在某种 特定形 式的处 理整数 的谓词 逻辑， 
在这种 谓词逻 辑中没 有哪种 证明系 统可以 证明每 一个重 言式。 

□此 外， 图 灵定理 表明， 存在 我们可 以陈述 但无法 用任何 计算机 解决的 问题。 这种 问题的 
例子之 一是， 某 给定的 C 语言 程序 是否会 在处理 某些输 人时进 人无限 循环。 
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14.2 谓词 

谓 词是对 命题变 量的一 般化。 回 想一下 12.10 节， 假设 我们有 3 个 命题： r  (“天 在下雨 ”）、 W 
( “乔 伊带着 伞”） 和^  (  “乔伊 被淋湿 ”）。 还 进一步 假设有 3 个 前提， 或者说 我们假 设为真 的表达 
式： (“如 果天在 下雨， 那 么乔伊 带着伞 ”）、 u^w  (“ 如果 乔伊带 伞了， 那么他 不会被 
淋湿 ”）， 以及 F  — 拓 （“如 果没有 下雨， 乔 伊不会 被淋湿 ”）。 

对乔伊 为真的 事情对 玛丽、 苏还 有比尔 等人也 为真， 因 此可以 把命题 w 看作 而 w 就是 
命题 如果 这样看 的话， 就 有前提 

r  —  uJoe,  uJoe  —  wJoe  和  F  —  wJoe 

如果定 义命题 示玛丽 带着她 的伞， 并定义 ^表示 玛丽被 淋湿， 那 么就有 了一组 类似的 
前提： 

r  —  UMary， UMary  —  ^Mwy  和 7  ^ Mary 

我 们可以 继续像 这样， 引入 命题谈 论所知 道的所 有个体 尤， 并用新 命题〜 和~ 陈述与 命题 
r 相关 的前提 ，即 

r  —  ux ，  ux  wx^Wr  wx 

现 在就要 讲到谓 词的概 念了。 与无 限的命 题集合 ~和>^ 不同 的是， 可以 将符号 《 定 义为接 
受 参数; T 的谓 词。 表达式 《(尤) 可 以解释 为在说 带着他 （她） 的 伞”。 可能对 某些; T 的值 而言， 
为真， 而 对其他 x 的值 来说， 为假。 同样， w 可以是 谓词， 粗略 地讲， w(；n 就表示 
“肩 财林 湿”。 

命 题变量 r 也可 以被当 作具有 0 个 参数的 谓词。 也就 是说， 下 不下雨 并不像 w 和 w 那样 取决于 
个体 I。 

现在可 以把前 提用谓 词表示 成如下 形式。 

(1)  r  —  w(X)。 （对任 何个体 X， 如 果天在 下雨， 那么又 带着他 或她的 伞。） 

(2)  w(X)^N0Tw(X)o  (不 管你 是谁， 如 果你带 着伞， 就不 会被淋 湿。） 

(3)  NOT  NOT  w(X)  0  ( 如果不 下雨， 那 么没人 会被淋 湿。） 

14.2.1 原 子公式 

原 子公式 （atomic  formula  ) 是具有 0 个 或更多 参数的 谓词。 例如， w(；J0 是具 有谓词 w 和一 
个参数 （这 里的 参数是 变量」 O 的原子 公式。 一般 而言， 参数 要么是 变量， 要么是 常量。 ® 尽管 
原则 上讲常 量的值 可以是 任何类 型的， 但我们 通常会 假设这 些值是 整数、 实 数或字 符串。 

变量是 那些可 以接受 任何常 量作为 其值的 符号。 我们不 应该把 “ 变量” 与第 12 章 “ 命题变 
量 ”中的 “ 变量” 弄混。 事 实上， 命题变 量等价 于没有 参数的 谓词， 而且 我们会 把表示 原子公 
式的 写成具 有谓词 名;? 和 0 个 参数的 形式。 

所 有参数 都是常 量的原 子公式 就叫作 基本原 子公式 （ground  atomic  formula  )0 非基 本原子 
公式 ( nonground  atomic  formula  ) 可 以用常 量或变 量作为 参数， 但 至少有 一 个参数 一定是 变量。 
请 注意， 作为没 有参数 的原子 公式， 任何 命题的 “所 有参数 都是常 量”， 因 此是基 本原子 公式。 


①谓 词逻辑 还允许 参数是 单个变 量或常 量之外 的更复 杂的表 达式。 这对 我们在 本书中 没有讨 论到的 某些用 途来说 
是很重 要的。 因此， 本章 中我们 将只会 看到变 量和常 量作为 谓词的 参数。 
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14.2.2 常量 和变量 的区分 

我们要 使用以 下约定 来区分 常量和 变量。 变 量名总 是以大 写字母 开头， 常量 是用以 下几种 
方式表 示的： 

(1)  以小写 字母开 头的字 符串； 

(2)  12 或 14.3 这样的 数字； 

(3)  带引 号的字 符串。 

因此， 如果要 把课程 CS101 表示为 常量， 就 可以将 其写为 “CS101”。 ® 

像 常量这 样的谓 词将会 用以小 写字母 开头的 字符串 表示。 我们 不可能 把谓词 与常量 弄混， 
因 为常量 只可能 出现在 原子公 式的参 数中， 而谓 词是不 可能出 现在那 里的。 

♦ 示例 14.1 

我们 可以用 谓词名 表示 8.2 节讨 论过的 “ 课程- 学号- 成绩” 关系中 所含的 信息。 原子公 
式 可以 被视作 在说： 对变量 C、 ^PG, 学号为 ^ 的学 生选修 了课程 C， 并得到 了成绩 
Go 换句 话说， 当我们 用常量 c 代替 C， 用 替 A 并用 g 代替 G 时， 当 且仅当 学号为 s 的学 生选修 
了课程 C 并取 得成绩 g， csg(c,s,h) 的值为 TRUE。 

还 可以通 过用常 量作为 参数， 把关系 中的特 定事实 （即 元组） 表 示为基 本原子 公式。 例如， 
图 8-1 中第 一个元 组可以 表示为 c^('’CS101”,12345,'’A”） ， 断言 学号为 12345 的学生 CS101 课程的 
成绩是 A。 最后， 可以 在参数 中混用 常量与 变量， 因 此就可 能看到 c^(”CS101”,&G) 这 样的原 
子 公式。 如 果变量 ^ 和 G 的取值 仏 幻满足 学号为 s 的学 生选修 了课程 CS101 并取 得成绩 g, 则该原 
子公式 为真， 否则就 为假。 

14.2.3  习题 

利用本 节中的 约定， 确 定以下 内容是 常量、 变量、 基 本原子 公式还 是非基 本原子 公式。 

(a)  CS205 

(b)  cs205 

(c)  205 

(d)  “cs205” 

(e)  p(X,  x) 

(f)  M3,  4,  5) 

(g)  >(3,4,5)” 

14.3 逻辑 表达式 

第 12 章 中为命 题逻辑 使用过 的概念 （文 字、 逻辑表 达式、 子 句等） 沿 用到了 谓词逻 辑中。 
在 下一节 中我们 还会引 人两种 额外的 运算符 来构成 逻辑表 达式。 不过， 逻 辑表达 式构造 背后的 
基 本思路 在命题 逻辑和 谓词逻 辑中基 本是相 同的。 

14.3.1  文字 

文 字要么 是原子 公式， 要么 是原子 公式的 否定。 如 果在原 子公式 的参数 中没有 变量， 那么 
相应 的文字 就是基 本文字 （ ground  literal  )。 


① 常 量在逻 辑中通 常称为 “原 子”。 不巧 的是， “原子 公式” 也时常 被称为 “原 子”， 因此 一般会 避免使 用术语 “原 子”。 
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♦ 示例 14.2 

是 原子公 式并且 是文字 。它 不是基 本的， 因 为根据 我们的 决定， 它的参 数义是 变量。 
NOT  是 文字， 但它不 是原子 公式， 也不 是基本 文字。 表达 式/?0,的 和 都是基 

本 文字， 但只有 前者是 （基 本） 原子 公式。 

就像命 题逻辑 那样， 可以 用上横 线代替 NOT 运 算符。 不过， 当横 线用在 很长的 表达式 上时， 
就 会容易 混淆， 因 此与第 12 章 相比， 在本章 中会更 常见到 NOT。 

14.3.2 逻辑 表达式 

我们 可以像 12.3 节中用 命题变 量构建 表达式 那样， 用原 子公式 构建表 达式。 这里将 继续使 
用第 12 章中讨 论过的 AND、 OR、 NOT、 4 和三运 算符， 以及 其他的 逻辑连 接符。 而 在下一 节中， 
我们 会介绍 “量 词”， 也 就是可 以在谓 词逻辑 中用来 构建表 达式， 但 在命题 逻辑中 没有类 比物的 
运 算符。 

就像 横线是 NOT 的简 化符号 那样， 可 以继续 用并置 （没 有运 算符） 来表示 AND 并用 + 表示 OR。 
不过， 我们并 不经常 使用这 些简化 符号， 因 为它们 可能让 谓词逻 辑中较 长的表 达式变 得难以 
理解。 

下 面的例 子应该 能让大 家对逻 辑表达 式的含 义有所 领悟。 不过， 要注 意到这 里的讨 论对其 
进 行了非 常大的 简化， 而我 们要到 14.5 节才 会讨论 “解 释”， 以及它 们为谓 词逻辑 中的逻 辑表达 
式 赋予的 含义。 


♦ 示例 14.3 

假设 有谓词 和 Mop ， 它 们分别 可以解 释为第 8 章中介 绍过的 “ 课程- 学号- 成绩” 与“学 
号- 姓名- 地址- 电话” 这两个 关系。 并假 设我们 想要找 到名为 “C.Brown” 的学生 CS101 课程的 
成绩。 就可以 断言以 下逻辑 表达式 

(c5g(<<CS10r，,  S,  G)AND  ^OTa^tSV'C.Brown”，^!，/*))  answer (G)  (14.1) 

这里的 是 另一个 谓词， 如果 G 是某 个名为 “C.Brown” 的学生 CS101 课程的 成绩， 它就适 
用 于成绩 G。 

在我们 “断 言”某 个表达 式时， 就说明 了 不管用 什么值 替换其 变量， 该表 达式的 值都为 TRUE。 
粗略 地讲， （14.1) 这样 的表达 式可以 按照以 下方式 解释。 如果 用常量 代替各 变量， 则各原 子公式 
就 成了基 本原子 公式。 通 过参考 “ 现实世 界”， 或是在 列岀某 给定谓 词为真 的基本 原子公 式的关 
系 中进行 查找， 可以确 定一个 基本原 子公式 是真还 是假。 在用 0 或 1 代替各 个基本 原子公 式时， 
可以 为表达 式本身 求值， 就像第 1 2 章中 为 命题逻 辑表达 式求值 那样。 

在 表达式 (14.1) 的情 况中， 可 以取图 8-1 和图 8-2a 中 的元组 为真。 特 别要说 的是， 

c^C'CSlOl", 12345, "A") 


和 

为真。 然后 可以设 


狀 ap(12345, “CBrown”, “12  Apple  St_”，“555-1234”) 

5  =  12345 
G  =  “A” 

A  -  u\2  Apple  St.” 

P  =  “555 -1234” 
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这让 (14.1) 的左 边成了  1  AND  1， 它的值 当然是 1。 原则 上讲， 我们 对谓词 flMwr 没 有任何 了解。 
不过， 我们 断言了 (14.1)， 这意味 着不管 用什么 值替代 其中的 变量， 它的 值都是 TRUE。 因为它 
的左边 根据上 述替换 得到了 TRUE, 所以 右边不 可能为 FALSE。 因此 我们推 导出了  answer  ("A") 
为真。 

14.3.3 其 他术语 

我们 还会使 用其他 与命题 逻辑相 关联的 术语。 一般 来说， 当本章 中讲到 命题变 量时， 说的 
就是所 有原子 公式， 其中 包括不 含参数 的谓词 （即 命题 变量） 作为 特例。 例如， 子句是 一组由 
OR 运算符 连接的 文字。 同样， 如果表 达式是 子句的 AND, 那么 就说它 是合取 范式。 如果 表达式 
是多 个项的 0R， 而 这些项 各自是 文字的 AND, 那么这 样的表 达式就 是析取 范式。 

14.3.4  习题 

(1)  为问题 “L.  Van  Pelt 的 PH100 课程 取得了 什么成 绩？” 写 出类似 (14.1) 的表 达式。 假设事 实如图 8-1 
和图 8-2 所示， 其 参数有 什么值 时能让 •显然 为真？ 为展 现该答 案的真 实性， 对 变量进 行了怎 
样的 替换？ 

(2)  设 c 说是 代表图 8-2c 中 “ 课程- 日子- 时刻” 关系的 谓词， 而 cr 则是 对应图 8-2d 中 “ 课程- 教室” 
关系的 谓词。 为问题 “C.Brown 星期 一上午 9 点在哪 里？” （更精 确地讲 ，是 “C.Brown 选修的 
星期 一上午 9 点上课 的课程 在哪个 教室上 课？” ）写 岀类似 (14.1) 的表 达式。 假设事 实如图 8-1 和 
图 8-2 所示， 其参 数有什 么值时 能让山 mver 显然 为真？ 为展 现该答 案的真 实性， 对 变量进 行了怎 
样的 替换？ 

(3) **  8.7 节 中讨论 过的各 种关系 代数运 算可以 用类似 (14.1) 的表达 式在谓 词逻辑 中表示 岀来。 例如， 
(14.1) 本 身就等 价于关 系代数 表达式 

兀成绩 （3 课程 ="CS101"AND  姓名 =’’C.Brown”(C'iS<G  X  SNAP)) 

说明 选择、 投影、 联接 、并 、交、 差这 些运算 用谓词 逻辑中 “表达 式蕴含 答案” 的 形式表 示岀来 
是什么 样子， 然后将 8.7 节 的示例 中给岀 的各关 系代数 表达式 转化成 逻辑表 达式。 

14.4 量词 

我们 回到涉 及无参 数谓词 K  “天 在下雨 ”）， 以 及单参 数谓词 ( “义带 着伞” ）和 w(;r)  ( “I 
被淋 湿”） 的 例子。 你 可能希 望断言 “如果 下雨， 那么某 人会淋 湿”。 也许 会尝试 
r— •w(  “乔伊 ” ）OR  W(  “ 莎莉” ） OR  W  (  “苏 ” ） OR  W(  “ 山姆” ）0R〜 

但这一 尝试会 以失败 告终， 原因 如下。 

(1)  可以把 表达式 写成有 限个表 达式的 0R， 但不 能把它 写成无 限个表 达式的 OR; 

(2)  不 知道所 谈论个 体的完 全集。 

要表示 一批通 过为某 个变量 替换所 有可能 的值形 成的表 达式的 0R， 就 需要一 种额外 的方式 
来创 建谓词 逻辑表 达式。 这一运 算符是 3, 读作 “存 在”。 我们将 其用在 这样 的表达 
式中， 或 者粗略 地将其 表述为 “ 存在某 一个体 I， 满足 义被淋 湿”。 一般 而言， 如果 E 是任 何逻辑 
表 达式， 那么 (3JQCE) 也是 逻辑表 达式。 ® 其大 概的含 义为， 至少存 在一个 I 的 值使得 五为真 。更 


①表达 式£ 两边的 括号有 时是必 要的， 有时 是不必 要的， 这取 决于该 表达式 的具体 内容。 当我 们在本 节稍后 的内容 
中讨论 优先级 和结合 性时， 情况 就会变 得更清 楚了。 3X 周围 的括号 是该符 号的一 部分， 因此 总是必 需的。 


14.4 量词  595 


精确 地讲， 对五中 其他变 量的各 种取值 来说， 可以找 出某个 I 的值 （在 所有 情况中 并不一 定是同 
样 的值） 使得 £ 为真。 

同样， 我们不 能写出 下面这 样的无 限个表 达式的 AND。 

U(  “ 乔伊” ）ANDW(  “ 莎莉” ）ANDW(  “苏” ） AND  W  (  “山姆 ”）••• 

要构 造一系 列通过 为某给 定变量 替换所 有可能 的值形 成的表 达式的 AND， 需 要符号 V  (称 
为 “对 所有的 ”）。 例如， （VXMX) 就表示 “对 所有的 X， 減 卩带着 伞”。 一般 而言， 对任 何逻辑 
表 达式仏 （vx)CE) 意 味着， XihE 中其他 变量所 有可能 的取值 来说， 用 来替换 X 的每 个常 量都能 
使五 为真。 

符号 V 和 3 就叫作 量词。 有时候 也会把 V 叫作全 称量词 （ universal  quantifier  )， 把 3 叫作存 
在量词 （ existential  quantifier  )Q 

♦  示例 14.4 

表达式 r  —  (VZ)(w(Z)OR  w(Z)) 意味着 “如果 下雨， 那么 对所有 的个体 I， 要么 I 带着 伞， 
要么 Z 被淋 湿”。 请 注意， 量 词可以 应用于 任意表 达式， 而不 只是前 面所述 例子中 的原子 公式。 
再举个 例子， 可以把 表达式 

(VC)(((3a  邮 (d,”A”)）4((37>^(C,r,”B”))）  (14.2) 

解 释为， “ 对所有 的课程 c， 如 果存在 学号为 ^ 的学 生该 课程的 成绩为 A, 那么一 定存在 学号为 r 
的 学生该 课程的 成绩为 B”。 不那么 严谨地 讲就是 “如 果给了 A, 那么也 必须给 B”。 

第三个 示例表 达式是 

((VX)NOT  w(X))0R((37)w(7))  (14.3) 

粗 略地讲 就是， “ 要么所 有个体 尤都 不被淋 湿， 要么至 少有一 个个体 7 被淋 湿”。 表达式 (14.3) 与本 
示 例中的 其他两 个表达 式是不 同的， 因为 这个表 达式是 重言式 —— 也就 是说， 不 管谓词 w 的含 
义是 什么， 该表 达式都 为真。 （14.3) 的真 实性与 “ 雨天” 的 属性没 有任何 关系。 不管 使谓词 w 为 
真的 值构成 的集合 是什 么， 要么 为空 （即 对所有 足 w(X) 都为 假）， 要么 不为空 （也 就是， 
存 在某个 F 使得 w{Y) 为 真)。 

14.4.1 逻 辑表达 式的递 归定义 

作为 回顾， 我们 要给岀 谓词逻 辑中这 类逻辑 表达式 的递归 定义。 

依据。 每个原 子公式 都是表 达式。 

归纳。 如 果五和 F 是逻 辑表 达式， 那么以 下表达 式也是 逻辑表 达式。 

(1)  NOT 五、 五 AND  F、 五 OR  F、 E  4  F 和 E  =  F 。 粗略 地讲， 我 们也允 许使用 NAND 这样的 
其 他命题 逻辑运 算符。 

(2)  对任 何变量 :1， （3Z) 五和 (VJQ 五。 原则 上讲， X 甚至 不需要 在五中 岀现， 虽 然实践 中这样 
的表达 式很难 “说得 通”。 

14.4.2 运 算符的 优先级 

一般 而言， 需要在 所有用 到表达 式五和 F 的 地方为 其加上 括号。 不过， 就像我 们已经 看到的 
其 他代数 那样， 通 常可以 岀于运 算符优 先级的 原因删 掉一些 括号。 这 里要继 续使用 12.4 节定义 
的运 算符优 先级， NOT  (最 高）、 AND、 OR、 — 和 = (最 低）。 不过， 量词 在所有 运算符 中有着 
最 高的优 先级。 
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♦ 示例 14.5 

(3X)^(X)0R  q{X) 会被 分组为 

((3X)^(X))0R  q(X) 

同样， 表达式 (14.3) 中 外层那 两对括 号是多 余的， 所以 可以将 其写为 

(VX)NOT  w(X)OR  (3X)w(7) 

还可 以消除 (14.2) 中 的两对 括号， 并将 其写为 

(\/C)((3S)csg(C,S,"A'')^  (3T)csg(C,T；^)) 

(VC) 后 整个表 达式两 侧的括 号是必 要的， 这样 才能把 “对 所有的 C” 应 用到整 个表达 式上。 


量词 的次序 

混淆 量词的 次序是 个常见 的逻辑 错误， 例如， 有 人可能 误认为 （vz)  (ar) 与 （ax)  (vr) 含 
义 相同， 但它 们是不 同的。 例如， 如果粗 略地把 解释为 爱 r’ ， 那么 
(VX)(3Y)/ova(；r,7) 就表示 “每 个人都 爱某个 人”， 也就 是说， 对每 个个体 X， 至少存 在一个 
个体 7 是 Z 所 爱的。 另 一方面 （37)(VZ)/ova(Z,r) 则 表示， 存 在某个 被每个 人所爱 的个体 7 —— 
这是 个非常 幸运的 F, 如果 存在这 样的人 的话。 


请 注意， 量词 (VZ) 和 (3Z) 所带 的括号 并不是 用于分 组的， 它 们应该 被看作 表示量 词的符 
号的一 部分。 还有， 请记住 量词和 NOT 都是 一元的 前缀运 算符， 而 且唯一 明智的 分组方 式就是 
从 右边起 为它们 分组。 

♦ 示例 14.6 

因此 表达式 (VZ)  NOT  (37)〆；^,  ；T) 被 分组为 

(vx)(not((37)^(x,7))) 

并表示 “对 所有的 X， 都 不存在 7 使得〆 X, 7) 为 真”。 换 句话说 就是， 不存 在使得 ;?(尤7) 为真 
的娜糊 取 值对。 

14.4.3 约束变 量和自 由变量 

量词 与表达 式中的 变量相 互作用 的方式 是很微 妙的。 要解 决这一 问题， 首先 要想到 c 语言 
中局 部变量 和全局 变量的 概念。 假 设如图 14-1 所示， 叉被 定义为 C 语言 程序 中的外 部变量 。假 
设 Z 不是在 main 函 数中声 明的， 那么 main 函 数中对 X 的引用 就是对 外部变 量的引 用。 另一方 
面， 函数 f 中也 声明 了局部 （自动 控制） 变量 X， 而函数 f 中对 X 的 所有引 用都是 对该局 部变量 
的 引用。 

C 语言程 序中对 Z 的声明 与量词 (VX) 或 (BX) 存 在着很 近的相 似性。 如果有 表达式 (VX) 五或 
(BX)E  , 那么 该量词 就相当 于为表 达式五 声明了 局部的 I， 就 像五是 函数， 而义 被声 明为该 函数的 
局 部变量 那样。 

在接下 来的内 容中， 有必要 用符号 0 来表 示任一 量词。 具 体来说 就是， 用 (0Z) 代表 “应用 
于; T 的某 个量 词”， 也就是 (VX) 或 (3X)0 
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int  X; 
main() 


++X; 


> 

void  f () 

{ 

int  X; 


图 14-1 局部变 量和全 局变量 

如果五 具有某 个形如 的子表 达式， 那 么该子 表达式 就像是 五中声 明的程 序块， mm 
自身对 X 进行 了声明 。在 F 中对 的 引用就 引用了 由这一 (0Z)  “声 明的” 工， 而五中 F 之外 的部分 
所使用 的叉则 引用了  x 的其 他声明 —— 要么是 与府目 关联的 量词， 要么是 与包含 在五中 但限 制了所 
考虑的 2 的 某个表 达式相 关联的 量词。 


OR 


(vx)  (VX) 

u{X)  w(X) 


图  14-2 对应 (VZ)w(Z)  OR  (VX)w(X) 表 达式树 


♦ 示例 14.7 

考虑 表达式 

(VX)w(X)OR(VX)w(X)  (14.4) 

粗略 地讲， 该表 达式的 含义是 “要 么每个 人都带 着伞， 要么 每个人 都被淋 湿”。 我 们可能 不相信 
这一命 题的真 实性， 但 这里要 拿它来 当例子 考虑。 表达式 (14.4) 的 表达式 树如图 14-2 所示。 请注 
意， 第一 个量词 (VX) 只在它 的子孙 W 中使用 X， 而第二 个量词 (VX) 只在它 的子孙 w 中使用 尤 要 
区分所 使用的 I 是在哪 个量 词中 “声明 ”的， 就只 能从该 ^ 向上 追溯， 直到遇 到量词 (0X) 为止。 
因 此这里 所使用 的两个 X 引用了 不同的 “声 明”， 而 且它们 之间没 有任何 关系。 

要注意 可以为 (14.4) 中对 勺两个 “ 声明” 使 用不同 变量， 将 其写作 (VJ0w(J0OR(V；T)w(7)。 
一般 来说， 总 是可以 为谓词 逻辑表 达式的 变量重 命名， 从而使 同一变 量不会 出现在 两个量 词中。 
这种 情况与 C 语言 这样的 编程语 言是类 似的， 我 们在编 程语言 中会为 程序中 的变量 重命名 ，这 
样 相同的 变量名 就不会 使用在 两个声 明中。 例如， 在图 14-1 中， 可以 把函数 f 中变 量名 X 的所有 
实例 都变为 任何新 变量名 Y。 

♦ 示例 14.8 

再举个 例子， 考虑 表达式 

(VX)(w(X)  OR  (BX)w(X)) 
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粗略 地讲， 其 含义是 “对各 个体， 要么该 个体带 着伞， 要么存 在某一 （可 能是 另一） 个 体被淋 
湿”。 该表 达式的 表达式 树如图 14-3 所示。 请 注意， w 中 使用的 X 指的 是对艮 定了私 密性的 “声 明”， 
也就 是存在 量词。 换句 话说， 如果从 沿着 树向上 行进， 那么在 遇到全 称量词 之前会 遇到存 
在 量词。 不过， w 中所使 用的义 就不在 该存在 量词的 “范围 ”内。 如果从 上行， 首 先会遇 
到全称 量词。 可以把 该表达 式写为 

iyx)(u(x)  or  (31>  ⑺） 

这样 就没有 哪个变 量会出 现在两 个量词 中了。 

(VX) 


n{X) 


忉 (X) 


图 14-3 对应 (VZ)(w(Z)  0R(3X)w(X)) 的表 达式树 


如 果在逻 辑表达 式五的 表达式 树中， 涉及某 个变量 I 的量 词是该 Z 的最低 祖先， 就可 以说该 
变量 I 是 受量词 约 束的。 如 果某个 Z 不受任 何量词 约束， 那么该 府尤 是自由 变量。 因 此量词 
就像 是以该 量词为 根节点 的子树 r 局部的 “声 明”。 这些 量词会 应用到 r 中除 了以 具有同 样变量 
的另 一个量 词为根 节点的 子树之 外的各 个节点 。而自 由 变量就 像是全 局变量 之于某 一函数 那样， 
它们的 “ 声明” 是在所 考虑的 表达式 之外进 行的。 

♦ 示例 14.9 


考虑 表达式 


u{X)  0R(3X)w(X) 


也就 是说， “要 么又带 着伞， 要么有 某个人 会被淋 湿”。 相应的 表达式 树如图 14-4 所示。 正 如之前 
的 例子中 那样， 这 里岀现 的两个 I 指的 是不同 个体。 w 中 岀现的 X 是受 到存在 量词约 束的。 不过， 
在 w 中出 现的 X 之上没 有对应 的 量词， 因此 这次出 现的义 在给 定的表 达式中 是自由 变量。 这个例 
子 说明， 在某表 达式中 同一变 量可能 同时作 为自由 变量和 作为约 束变量 出现， 所 以在某 些情况 
下， 我 们会说 “ 作为约 束变量 出现” 而不是 直接说 “ 约束变 量”。 示例 14.7 和 14.8 中的表 达式表 
明， 岀 现在不 同位置 的相同 变量， 也可 能分别 受到岀 现在不 同位置 的相同 量词的 约束。 


u{X) 


(3X) 


忉⑷ 


图 14-4 对应 u{X)  OR  (3X)w(X) 的表 达式树 
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14.4.4  习题 

(1)  从以下 表达式 中删除 多余的 括号。 

(a)  (VX)((37)(N0T(^(X)0R(^(7)AND  ^(X))))) 

(b)  (3Z)((N0T^(X))AND((37)(^(7))0R(3Z)(9(X,Z)))) 

(2)  为习题 (1) 中的表 达式画 岀表达 式树。 如果岀 现的变 量是受 量词约 束的， 则指 岀它是 受哪个 量词约 
束的。 

(3)  重 写习题 (1) 中的 表达式 (b), 使得其 中的量 词不含 相同的 变量。 

(4) * 在前文 附注栏 “量词 的次序 ”中， 我 们谈论 了量词 /0觀(尤7)， 并 为其给 岀了预 料之中 的粗略 
解释。 不过， 正如我 们将在 14.5 节中看 到的， 谓 词没有 具体的 解释， 而且也 可以拿 /ova 来 谈论整 
数而非 个人， 并为 /ow^(X,F) 给岀 r  =  z  +  i 这样 的粗略 解释。 在 这种解 释下， 比较 
(VZXMVoveKZJ) 和 的 含义。 它们的 粗略解 释各是 什么？ 如果 可能的 
话， 大家 会相信 哪个？ 

(5)  * 利 用之前 例子中 的谓词 ag, 写 岀断言 以下内 容的表 达式。 

(a)  C.Brown 是个 A 等生 （ 即他 所有课 程的成 绩都是 A  ) 。 

(b)  C.Brown 不是 A 等生。 

(6)  * 设计 文法， 描 述合法 的谓词 逻辑表 达式。 大家 可以使 用常量 和变量 这样具 有象征 性的终 结符， 
而且不 需要考 虑重复 括号的 问题。 

14.5 解释 


直到 现在， 我们对 谓词逻 辑表达 式有何 “含 义”， 或者说 是对如 何为表 达式赋 予含义 的了解 
还 是相当 模糊。 这里 要通过 先回顾 命题逻 辑表达 式五的 “ 含义” 来阐 释这一 主题。 命题逻 辑表达 
式 的含义 是接受 “真值 赋值” （为 五中 的命题 变量指 定真值 0 和 1 的 情况） 作为 参数， 并产生 0 或 1 作 
为 结果的 函数。 根 据给定 的真值 赋值， 用 0 或 1 替代 表达式 £ 中的各 原子操 作数， 并求岀 E 的值 ，从 
而确定 结果。 换句 话说， 逻辑表 达式五 的含义 就是为 各组真 值赋值 给出相 应却直 （0 或 1 ) 的真 值表。 

而真 值赋值 是接受 命题变 量作为 参数， 并 为各参 数返回 0 或 1 的 函数。 换句 话说， 可 以把真 
值赋 值视为 给各命 题变量 给定某 一真值 （  0 或 1  ) 的 表格。 图 14-5 展示了 这两种 函数的 角色。 


V 


真 值赋值 


0 或 1 


(a) 真值 赋值是 从谓词 到真值 的函数 
含义 


真 值赋值 


0 或 1 


(b) 表达式 的含义 是从真 值赋值 到真值 的函数 
图 14-5 命题 逻辑中 表达式 的含义 

在 谓词逻 辑中， 为 谓词指 定常数 0 或 1  (TRUE 或 FALSE) 是不 够的， 除非 谓词不 含参数 ，而 
这 种情况 下它们 从本质 上讲就 是命题 变量。 不过， 为 谓词赋 的值本 身是歌 函数， 它接受 谓词参 
数的 值作为 输人， 并产生 0 或 1 作为 输出。 

更 加精确 地讲， 首 先必须 从变量 可能的 取值中 选取一 些值构 成非空 的定义 域乃。 这 一定义 
域可以 是任何 内容： 整数、 实数， 或由没 有特殊 名称或 意义的 值构成 的某个 集合。 不过， 假设 
定义域 含有岀 现在 表达式 本身中 的所有 常量。 
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现在， 设 ^ 是具有 &个 参数的 谓词。 那么谓 词;? 的解释 就是接 受定义 域元素 到;? 中 &个 参 数的赋 
值作为 输入， 并返回 0 或 1  (TRUE 或 FALSE) 的 函数。 或 者说， 可以把 户的解 释看作 具有砂 U 的关 
系。 对让 在 该解释 中为真 的各参 数赋值 来说， 在该 关系中 都存在 相应的 元组。 ® 

现 在可以 把表达 式五的 解释定 义为： 

(1)  非空 的定义 域乃， 含有五 中出现 的任何 常量， 

(2)  对五中 岀现的 各谓词 的 解释， 以及 

(3)  乃 中对应 表达式 E 各自 由变 量的值 （ 如果 存在自 由 变量的 话)。 

解释与 “对 谓词的 解释” 分 别如图 14-6a 和图 14-6b 所示。 请 注意， 解 释在谓 词逻辑 中的角 
色就相 当于真 值赋值 在命题 逻辑中 的 作用。 


参 数的值 - ►  谓词 的解释  - ►  0 或 1 


(a) 谓 词的解 释为参 数值元 组指定 了真值 


X 


谓词; ^ 的解释 


变量 X 的值 


(b) 解 释为各 谓词指 定了谓 词解释 ，并 
为各 变量指 定了值 （类 似真值 赋值） 


解释 - ►  含义  - ►  0 或 1 


(c) 表达 式的含 义为各 解释指 定真值 （类 似真 值表) 


图 14-6 谓词 逻辑中 表达式 的含义 


♦ 示例 14.10 

考虑以 下谓词 逻辑表 达式： 

p{XJ)^  (3Z)(^(X,Z)and p(Z,Y))  (14.5) 

谓 词;? 一 种可能 的解释 （我们 将称其 为解释 A  ) 如下 所述。 

(1)  定 义域乃 是实 数集。 

(2)  只要 F) 就 为真。 也就 是说， 的 解释是 有序对 的 无限集 构成的 关系， 
其 中满足 t/f 卩 時 卩是实 数而且 t/ 小于 K 


① 与第 8 章 中谈论 的关系 不同， 作为 谓词解 释的关 系可能 具有无 限多的 元组。 
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那么 (14.5) 就 表示， 对任何 实数对 nr， 如果 尤<7, 则存 在某个 z 严格 位于府 pr 之间， 也就 
是说， 有 。对解 释^ 而言， （14.5) 总 是为真 。如果 Ky， 就可 以选择 Z  =  (Z  +  7)/2 ， 
也 就是对 nr 的平 均数， 然后就 能确定 x<z 且 z<;r。 如果 z 彡; r， 那么该 蕴涵式 的左边 为假， 
则 (14.5) 显然 为真。 

我们 可以根 据谓词 的解释 A ， 通过 选择任 何实数 作为自 由变量 和 7, 为 (14.5) 构建 无数的 
解释。 根 据我们 刚才所 说的， 这 些对应 (14.5) 的解释 都能使 (14.5) 为真。 

谓 词;? 第二 种可能 的解释 /2 如下： 

⑴乃 是整 数集； 

(2) 当 且仅当 C/CF 时， p(U,V) 为真。 

现在， 我们可 以声明 (14.5) 为真， 除非 r  =  Z  +  l。 因 为如果 7 比 X 大 2 或者 更多， 那么 Z 就可 以被 
选为 Z  +  1。 这样就 是满足 的 情况。 如果 那么扒 Z,y) 为假， 则 (14.5) 还是为 
真。 不过， 如果 7  =  1+1， 那么 为真， 但不存 在严格 处于对 tir 之间 的整数 z。 因 此这种 
情况 下对每 个整数 Z 而言， 和 扒 z,r) 都为假 ，则 蕴涵式 的右边 ，即 
(3z)(Az,z)AND；?(z,r)) 不 为真。 

通过为 自由变 量又和 y 赋整 数值， 可以将 /2 扩展为 表达式 (14.5) 的 解释。 以上 分析说 明了， 
除了  y  Z  + 1 情况 下外， （14.5) 对任何 这样的 解释都 为真。 

对 P 的第三 种解释 /3 是抽 象的， 不像之 前的解 释4 和 /2 那样具 有常见 的数学 含义。 

⑴乃 是三 个符号 a、 K  c 的 集合。 

(2) 如果 t/F 是 aa、 aK 〜、 6c、 cK  cc 其中 之一， 则〆 t/,F) 为真， 若 UV 为 ac、 祕和 ca, 则 
At/, F) 为假。 那么 刚好有 (14.5) 对 9 对 都 为真。 在 每种情 况下， 要么〆 X, 7) 为假， 要 么存在 
Z 使得 (14.5) 的右边 为真。 图 14-7 列 举了这 9 种 情况。 通过为 自由变 量义和 F 指定由 a、 K  c 构成的 
任 意赋值 组合， 我们有 9 种方式 可以把 /3 扩展为 (14.5) 的 解释。 


X 

Y 

为 何为真 

a 

a 

Z  =  a  或 6 

a 

b 

Z  =  a 

a 

c 

p(a,c) 为假 

b 

a 

Z  =  a 

b 

b 

p(c,a) 为假 

b 

c 

Z  =  c 

c 

a 

p(b,b) 为假 

c 

b 

Z  =  c 

c 

c 

Z  =  6 或 c 

图 14-7 使 用解释 /3的 情况下 (14.5) 的值 


14.5.1 表达式 的含义 

回想 一下， 命题逻 辑中表 达式的 含义就 是从真 值赋值 到真值 0 和 1 的 函数， 如图 14-5b 所示。 
也就 是说， 真值 赋值陈 述了与 表达式 原子操 作数的 值有关 的所有 信息， 然 后为该 表达式 求值得 
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到 0 或 1。 同样， 在 谓词逻 辑中， 表达 式的含 义是接 受解释 （我 们需 要利用 该解释 为原子 操作数 
求 值）， 并返回 0 或 1 的 函数。 表达式 含义的 这一概 念如图 14.6c 所示。 

♦ 示例 14.1 1 

考 虑示例 14.10 中的 表达式 (14.5)。 （14.5) 中的 自由变 量是对 nr。 如果 给定的 是示例 14.10 中对 
户的解 释乃 （户 是针对 实数的 <)， 而且给 定了值 3.14 和 7=  3.5, 那么 (14.5) 的 值就是 1。 其实， 
正 如我们 在示例 14.10 中讨 论过 的， 有着对 p 的解释 &  , 任何 义和 F 的值 都使该 表达式 的值是 1。 同 
样的结 论也适 用于对 的解释 /3 ， 从 定义域 {fl， 6， <:}中选取的任何对[17的值都会让(14.5)的 
值为 1。 

另一 方面， 如果给 定了解 释/2  (；? 是针对 整数的 <)， 以及值 ^=3 和 7=4, 那么 就像我 们在示 
例 14.10 中 讨论过 的， （14.5) 的值是 0。 如果 有解释 /2, 而且 自由变 量的值 分别是 Z=3 和 7=5, 那 
么 (14.5) 的值是 1。 

要 完成对 表达式 “ 含义” 的 定义， 必须正 式地定 义如何 把原子 操作数 的指针 转化成 整个表 
达式的 真值。 之前 我们已 经利用 直觉， 根 据的是 对命题 逻辑的 逻辑连 接符作 用方式 的理解 ，以 
及考虑 量词的 直觉。 给定 某解释 / 以及 定义域 乃， 表达 式的值 的正式 定义就 是对给 定的表 达式五 
的表达 式树进 行的结 构归纳 。 

依据。 如果 表达式 树是单 个叶子 节点， 那么 E 是原子 公式扒 4 ，…, XJ。 这些 4 全 都要么 
是 常量、 要么 是表达 式£ 的自由 变量。 解释 / 为各变 量给定 了值， 这 样一来 就拥有 7> 所有 参数的 
值。 同样， / 表明了 在以这 些值作 为参数 的情况 下;? 是真还 是假。 而 该真值 就是表 达式五 的值。 

归纳。 现在， 必须 假设给 定的表 达式五 对应 的表达 式树根 节点位 置是运 算符。 这存 在若干 
种 情况， 具 体取决 于五的 根节点 位置是 什么运 算符。 

首先， 考虑 一下五 形如岑 AND 尽的 情况， 也就 是说， 根节点 处的运 算符是 AND。 归纳 假设可 
以应 用于子 表达式 g 和尽。 因 此可以 在解释 / 之下 为尽 求值。 ® 同样， 可以 在解释 / 之下 为尽求 
值。 如果 求出的 值都是 1， 那 么五的 值就是 1， 否则五 的值是 0。 

像 OR 或 NOT 这样 的其他 逻辑运 算符的 归纳也 是如法 炮制。 对 OR 而言， 我们会 为两个 子表达 
式 求值， 并 且只要 有任何 一个子 表达式 得岀值 1， 就为 表达式 得出值 1。 而对 NOT 来说， 我们会 
为那 一个子 表达式 求值， 并 得出该 表达式 的值的 否定， 而对 其他命 题逻辑 运算符 来讲， 处理方 
法 也都是 一 '样 的。 

现 在假设 五形如 (3X) 尽 。根节 点运算 符就是 该存在 量词， 而且我 们可以 将归纳 假设应 用于子 
表达 式尽。 尽中的 谓词都 出现在 五中， 而 g 中的自 由变量 都是五 的自由 变量， 可能还 要加上 尤 ® 
因此， 我们 可以为 定义域 乃中的 各个值 v 构建 对应尽 的解释 /， 以及 我们称 之为解 释人的 对变量 I 
的赋值 V。 对 各个值 V， 我们 会问， 在解释 人之下 尽是否 为真。 如果至 少存在 一个这 样的值 V， 
那么我 们说五 =  (3X) 尽 为真， 否则就 伽为假 。 

最后， 假设 五形如 (VZ) 石。 归纳 假设还 是适用 于尽。 现在 要问， 对 定义域 乃中的 每个值 V， 
在解释 人之下 € 是否 为真。 如 果是， 就说 五 的值是 1 , 如果 不是， E 的值 就是 0。 


① 严格 地讲， 要从/ 中除去 那些只 出现在 五中但 没有出 现在瓦 中的对 应谓词 p 的解 释。 还有， 必须放 弃那些 出现在 £中 
但 没有出 现在及 中的自 由变量 的值。 不过， 如果解 释中包 含进没 有用到 的额外 信息， 是不存 在任何 概念困 难的。 

② 技术 上讲， 即使对 私应用 了涉及 z 的量 词， 馬 还是可 能不含 任何作 为自由 变量的 X。 在 这种情 况下， 量词 可能也 
不 存在， 但我 们没有 阻止它 出现。 
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♦ 示例 14.12 

这里在 给定对 的解释 /2 ， 以 及对应 自由变 量又和 F 的值 分别是 3 和 7 的情 况下， 要为 表达式 
(14.5) 求值。 对应 (14.5) 的 表达式 树如图 14-8 所示。 我们 看到， 根节点 处的运 算符是 ―。 之前并 
未明 确介绍 过这种 情况， 不过原 则应该 是很清 楚的。 整 个表达 式可以 写成尽 — 馬， 其 中尽是 
p(X,Y) , 而馬是 (3Z)(/7(Z,Z)AND;?  (ZJ))。 因 为—的 含义， 所 以除了  ^为真 而且尽 为假的 
情况， 整个 表达式 (14.5) 都 为真。 


p(X,y)  (3Z) 


AND 


P(X，Z)  p(Z,Y) 


图 14-8 对应 (14.5) 的表 达式树 

E” 也就是 ， 是很 容易求 值的。 因为尤 =  3 ， 7  =  7  , 而且当 且仅当 时〆 ZJ) 
为真， 所 以可以 得出尽 为真。 为 尽求值 则更为 困难。 我们 必须为 Z 考虑 所有可 能的值 V， 以了解 
是否 至少存 在一个 值使扒 Z,Z)  AND p(Z, 7) 为真。 例如， 如 果尝试 Z  =  0, 那么 p(Z,7) 为真， 
但; Z) 为假， 因为 Z  =  3 是 不小于 义的。 


能 否计算 表达式 的值？ 

大 家可能 会怀疑 在五是 (3X)6 或 （VZ) 尽的情 况下， 我们 对表 达式五 值为 1 的 定义。 如果定 
义域 乃是无 限的， 那 么我们 已 经提出 的在各 解释人 之下为 g 求值的 测试就 不需要 对应其 执行的 
算法。 从本质 上讲， 要求我 们为存 在量词 执行以 下函数 

for  (each  v  in  D) 

if  (Ei  is  true  under  interpretation  Jv) 
return  TRUE; 
return  FALSE; 

并为全 称量词 执行如 下函数 
for  (each  v  in  D) 

if  (Ei  is  false  under  interpretation  Jv) 
return  FALSE; 
return  TRUE; 

尽 管这些 程序的 目的很 明确， 但它们 都不是 算法， 因为若 定义域 乃是无 限的， 则要 进行无 
数次 循环。 不过， 虽然可 能没法 分辨五 是真还 是假， 但 我们还 是给出 了五何 时为真 的正确 定义， 
也 就是说 ， 我们 为量词 V 和 3 赋予了 预期的 含义。 在 很多实 际且实 用的情 形中， 我们将 能够分 
清五 是真还 是假。 在另 一些情 况中， 我们会 看到五 是真还 是假都 是没关 系的， 例 如涉及 将表达 
式变形 为等价 形式的 情况。 可以在 不知道 是否存 在令五 i 这样 的子表 达式为 真的值 v 的情 况下， 
根据 两 个表达 式的值 的定义 来推 理它们 是等 价的。 
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如果考 虑这种 情况， 就会 看到， 要使 /7(Z,Z)AND/?(Z,r) 为真， 就需要 V 的值 满足 3<V  (从 
而让 /7(Z,Z) 为 真）， 并满足 v<7  (从 而使 为 真)。 例如， ^4就能使/7(尤2)測即(乙；0 
为真， 并因 此证明 了尽， 或者说 证明了  (3Z)(^(Z,Z)AND；7(Z,7)) 对给 定的解 释而言 为真。 

现 在可知 g 和馬都 为真。 因为当 g 和尽都 为真时 g  — 尽为 真， 所以 可以得 岀结论 ，在 
谓 词;? 具 有解释 /2, 而且 1  =  3， ： T  =  3 的情 况下， 表达式 (14.5) 的值是 1。 

14.5.2  习题 

(1)  分别 为以下 各表达 式给岀 一种使 其为真 的解释 以及一 种使其 为假的 解释。 

(a)  {\/X){3Y){loves{X,Y)) 

(b)  p{X)^  NOT  p{X) 

(c)  {3X)p{X)^{yX)p{X) 

(d)  (^(X,7)AND  p{Y,Z))  ->  p(X,Z) 

(2)  解释 一下， 为 什么每 种解释 都能使 表达式 p(X)->  p(X) 为真。 

14.6 重言式 


回想 一下， 在 命题逻 辑中， 如果对 每种真 值赋值 而言， 表 达式的 值都是 1， 就 说该表 达式是 
重 言式。 同样 的概念 在谓词 逻辑中 也是成 立的。 如 果对五 的每种 解释， e 的值 都是 1， 则 说表达 
式£ '是重 言式。 

♦ 示例 14.13 

就像 在命题 逻辑中 那样， “随机 的”谓 词逻辑 表达式 很少是 重言式 。例 如， 我们 在示例 14.10 
中研 究过的 表达式 (14.5)， 或者说 

p{X,Y)^  (3Z)(^(X,Z)AND  p(Z,Y)) 

在某些 针对谓 词;? 的解释 之下总 为真， 但 是存在 像示例 14.10 中的 /2 这样的 解释： p 是针对 整数的 
<， 让该 表达式 不总是 为真， 比如， 对 Z  =  1 和 7  =  2， 该 表达式 为假。 因此， 该 表达式 不是重 
言式。 

表达式 

q(X)  OR  NOT  q{X) 

就 是个重 言式。 这里， 不 管为谓 词以吏 用什么 解释， 或 者为自 由变量 力武什 么值， 都 是没关 系的。 
如 果所选 择的解 释使得 彳⑻ 为真， 那么该 表达式 为真。 

14.6.1 替 换原则 

命题逻 辑重言 式是谓 词逻辑 重言式 的丰富 来源。 我们在 12.7 节 中介绍 过的替 换原则 表明， 
可 以取任 意命题 逻辑重 言式， 对其中 的命题 变量进 行任何 替换， 得到 的结果 仍然是 重言式 。如 
果允许 用谓词 逻辑表 达式替 换命题 变量， 那 么该原 则仍然 成立。 例如， 示例 14.13 中提到 过的重 
言式冰 ¥)ORNOT  q{X), 就是用 表达式 替换 了重言 式;?  OR  NOT；? 中的命 题变量 p。 

用 谓词逻 辑表达 式替换 命题变 量时替 换原则 成立的 原因， 与用 命题表 达式替 换命题 变量时 
该 原则成 立的原 因基本 相同。 在用 这样的 表达式 替代表 达式中 出现的 某一命 题变量 时， 我 
们 知道， 对任 何解释 来说， 所 替换的 表达式 不管岀 现在何 处都有 着相同 的值。 因为 原有的 （我 
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们 要对其 进行替 换的） 命题逻 辑表达 式是重 言式， 所以 在将其 中某个 命题变 量全部 替换为 0, 或 
者全部 替换为 1 时， 该表达 式总是 为真。 

例如， 在表 达式於 0  OR  NOT  中， 不管 ^ 的解 释是什 么或^ J 值是 什么， 要 么为真 ，要 

么 为假。 因此， 这个表 达式要 么变成 1  OR  NOT  1， 要 么变成 0ORNOT0， 而这 两个式 子的值 者卩是 1。 

14.6.2 表达式 的等价 

和命 题逻辑 中 一样， 如 果两个 谓词逻 辑表达 式五和 P 满足 E 三 F 是重 言式， 就可 以定 义它们 
是等 价的。 在讲 到谓词 逻辑表 达式等 价时， 12.7 节中介 绍过的 “ 以相等 换相等 原则” 继续 成立。 
也就 是说， 如果 尽等价 于毛， 那 么可以 用尽代 替任一 表达式 g 中的 尽， 得到的 表达式 将是 
等 价的， 也 就是说 F' 三 F2 。 

♦ 示例 14.14 

AND 运 算的交 换律是 (pAND^  =  &AND/?)。 现在， 如果有 (/jCJQAND  g(J,Z))OR  这样 

的表 达式， 那么 可以用 g(7,Z)AND/7(X) 替换 /7( 尤) AND^(y，Z) ， 产生 另一个 表达式 

(q(Y,Z)  AND  p{X))  OR q{Y,Z) 

并知道 

((p(X)AND  q(Y,Z))OR  q(X,Y))  ^  ((q(Y,Z)AND  p(X))OR  q(X,Y)) 

还有一 些更微 妙的等 价谓词 逻辑表 达式。 通常， 我们会 认为等 价表达 式有着 相同的 自由变 
量和 谓词， 不过有 些情况 下自由 变量和 （或） 谓词可 以是不 同的。 例如， 表达式 

(/?(X)OR  NOT  p(X))  =  (q(Y)OR  NOT  q(Y)) 

就是重 言式， 因为 = 两边的 表达式 如我们 在示例 14.13 中论 证过的 都是重 言式。 因此， 在 表达式 
/?(X)OR  NOT  p(X)OR  q(X) 中可 以用  g-(7)0R  NOT  q(Y) 替换  /?(X)OR  NOT  p(X) , 从而 得到 
(J9(X)0R  NOT  p{X)OR  q{X))  =  (q{Y)OR  NOT  ^r(7)0R  q{X)) 

因为 = 的左 边是重 言式， 所 以还可 以得岀 

^f(7)0R  NOT  ^f(7)0R  q{X) 

是重 言式的 结论。 

14.6.3  习题 

解释以 下各表 达式为 何是重 言式。 也就 是说， 我 们为命 题逻辑 重言式 替换了 什么样 的谓词 逻辑表 
达式？ 

(a)  (^(X)OR  q(Y))  =  (q(Y)ORp{X)) 

(b)  p{X,Y))  ^  p(X,Y) 

(c)  ( p(X)  ->  FALSE)  =  NOT  p(X) 

14.7 涉及 量词的 重言式 

涉及量 词的谓 词逻辑 重言式 在命题 逻辑中 没有直 接的参 照物。 本 节要探 究这些 重言式 ，并 
展示 如何利 用它们 处理表 达式。 而主要 成果就 是可以 将任何 表达式 转换成 量词全 在开头 位置的 
等价表 达式。 
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14.7.1 变量的 重命名 

在 C 语言 中， 可以改 变局部 变量的 名称， 只要对 所有用 到该局 部变量 的地方 进行统 一修改 
即可。 类 似地， 也可 以改变 量词中 用到的 变量， 只要 对所有 岀现受 到该量 词约束 的这一 变量的 
地 方进行 修改。 还有， 就像在 c 语言中 那样， 一 定要谨 慎选择 新的变 量名， 因为 如果选 择的名 
称已 经在所 考虑函 数之外 定义， 那 么就可 能改变 程序的 含义， 就 会造成 严重的 错误。 

记住 这种重 命名， 我们 可以考 虑以下 类型的 等价， 以 及在何 条件下 它是重 言式。 

{QX)E^{QY)E'  (14.6) 

其中 五 '是把 五中所 有受到 这里明 确给出 的量词 (0Z) 约 束的义 替换为 F 后得 到的。 我们说 
(14.6) 是重 言式， 只要五 中没有 出现自 由变量 F。 要知道 原因， 可以考 虑任一 对应 (0JQ 五 的解释 /。 
或者等 价地， 对应 因为 两个量 词化表 达式的 自由变 量和谓 词是相 同的。 如果 通过为 z 
给定值 V 扩展 过的 / 使得 E 为真， 那么 / 和对应 7 的值 V 也能让 P 为真。 相反， 如果 通过为 X 给定值 V 
扩展的 / 使五为 假， 那么 扩展的 I 和对应 7 的 v 也使 f 为假。 

如 果量词 0 是 3 ， 那么假 设存在 对应; 從 J 值 vf 吏得 E 为真， 就 存在某 个对应 7 的值 V， 使得 £，为 
真， 相反， 假 设存在 尤的值 v 使 得五为 假， 就存 在对应 7 的值 vf 吏得 F 为假。 如果 0 是 V， 那么当 
且仅当 所有的 m 使五 '为 真时， 所有的 X 值使 五为 假。 因此， 对任 一量词 而言， 在 给定的 任一解 
释 / 之下， 当 且仅当 (07)矿 在 相同解 释下为 真时， （0Z) 五才 为真， 这就证 明了如 下表达 式是重 
言式。 

(QX)E^(QY)E' 


♦ 示例 14.15 

考虑刚 好是重 言式的 表达式 

((3JT)^(X,7))OR  NOT((3X)^(X,7))  (14.7) 

我们 要展示 如何为 这两个 Z 中的 一个重 命名， 以形 成两个 量词 中使用 不同变 量的另 一个重 言式。 

如果设 表达式 (14.6) 中 的五是 7) ， 并且选 择变量 Z 扮演 (14.6) 中 F 的角 色， 就有 重言式 
((3X) p(X, Y))  =  ((3Z) p(Z, 7))  o 也就 是说， 如果要 构造表 达式五 '， 就要用 z 替换五 =  中 

的 I， 从 而得到 因此， 可以 “以相 等换相 等”， 把 (14.7) 中的 第一个 替换为 
(3Z)p(Z,Y) , 以得岀 表达式 

{(3Z)p(Z,Y))OR  NOT((3X)/?(X,F)) 

该 表达式 等价于 (14.7)， 因此 也是重 言式。 

请 注意， 也 可以用 Z 替换 (14.7) 第二 半中的 I, 是 否这样 做都是 无关紧 要的， 因为这 两个量 
词定 义了没 有关系 的不同 变量， 只 不过在 (14.7) 中它 们都被 命名为 X。 不过， 我们应 该明白 ，任 
何一个 3X 都不 能用 3  7 替代， 因为在 出现的 两个子 表达式 中都 是自由 变量。 

也就 是说， （(3X)^(Z,r))  =  C 不是 重言式 (14.6) 的 实例， 因为 提〆 7) 中的自 由变量 。要 
知道这 为什么 不是重 言式， 可以设 把;? 解释 为针对 整数的 <。 那 么对自 由变量 7 的任 何值， 比方 
说 7  =  10, 表达式 （3X)/KU) 都 为真， 因 为我们 可以设 1  =  9。 不过 该等价 的右边 —— 
(3Y)p(X,Y) —— 为假， 因为没 有哪个 整数严 格小于 自身。 

同样， 也 不能用 替换 (14.7) 中 的 第一个 实例。 因为 得到的 表达式 

((37)/?(7,7))0R  NOT((3X)/7(X,7))  (14.8) 
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也不可 能是重 言式。 这里 还是设 p 的解释 为针对 整数的 <， 并设自 由变量 7 的值是 10。 请 注意， 
在 (14.8) 中， 岀现在 p(X,Y) 中的 两个持 卩是受 到量词 (37) 约 束的， 只有 岀现在 p{X,Y) 中 的最后 
一个 7 是自 由的。 那么 (3 7)^(7, 7) 对 这一解 释而言 为假， 因 为没有 扣勺 值 比它自 身小。 另一 方面， 
当 r  =  io  (或其 他任何 整数） 时， 为真， 所以 NOT((3X)〆 义 r)) 为假 。 这样 一来， 
表达式 ( 1 4. 8) 对这一 解释而 言 为假。 


让量词 化的变 量唯一 

(14.6) 式 有个有 意思的 结果， 就是 我们总 是可以 把任何 谓词逻 辑表达 式五转 换成等 价表达 
式， 使其没 有两个 量词使 用同一 变量， 而 且没有 量词使 用在五 中也作 为自由 变量的 变量。 这样 
的表 达式称 为修正 表达式 （ rectified  expression  )。 

在 证明过 程中， 我们 可能从 重言式 万三五 开始， 然 后利用 （14.6)， 以五中 未使用 过的新 变量， 
依 次为右 边的五 中各量 词化的 变量重 命名。 得到的 结果是 表达式 五三五 ' ， 其中五 '中 所有 的量词 
(@) 都涉及 不同的 I， 而这些 X 也不是 五或五 '中 的自由 变量。 根据 命题逻 辑中等 价的传 递性， 

厶 三五' 是重 言式， 也 就是说 五和五 '是等 价的表 达式。 


14.7.2 自 由变量 的全称 量词化 

只 有在其 自由变 量全称 量词化 的相同 表达式 为重言 式时， 带有自 由变 量的表 达式才 可能是 
重 言式。 严格 来讲， 对所有 重言式 JtP 变量尤 而言， （v；nr 也是重 言式。 技术 上讲， 出现在 r 中 
的 x 是否 自由都 是没关 系的。 

要知道 (v;qr 为什 么是重 言式， 设 & …、 1是7 的自由 变量， x 可能 是其中 一员， 也 可能不 
是。 首先， 假设 z  =  我 们需要 证明， 对所有 的解释 /， (vxyr 为真。 等价 地讲， 也就 是需要 
证明， 对 / 的定义 域中的 每个值 V， 通过为 x 给定值 v 而由 / 形 成的解 释人使 r 为真。 但 r 是重 言式， 
所 以每种 解释都 会使其 为真。 

如果 Z 是 7 猶 其他自 由变量 $ 中的某 一个， 那 么论证 (vz)r 为重言 式的过 程本 质上讲 是相同 
的。 如果 x 不是 y 中的 一员， 那么 它的值 不会对 扣勺 真 假产生 影响。 因此 rat 所有的 #卩 为真 ，就 
因为 r 是重 言式。 

14.7.3 闭 表达式 

一 个有意 思的结 果是， 对 重言式 来说， 可以假 设不存 在自由 变量。 我 们可以 利用之 前的变 
形， 一次 全称量 词化一 个自由 变量。 不含 自由变 量的表 达式就 叫作闭 （closed) 表 达式。 

♦ 示例 14.16 

我们 知道扒 Z,7)ORNOT；7  (尤7) 是重 言式。 可 以为自 由变量 X 和 Y 加上 全称 量词， 得到重 

言式 

(VX)(V7)(/7(X,7)0R  NOTp  (X,Y)) 


14.7.4 把量 词移过 NOT 


存在德 摩根律 的无限 版本， 让我们 可以用 3 替代 V， 反之 亦然， 就像 “普 通的” 德 摩根律 
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允 许我们 在移过 NOT 的 时候， 在 AND 和 OR 之 间切换 一样。 假 设有像 

N0T((VX)^(X)) 

这 样的表 达式。 如果 定义域 值的数 量是有 限的， 比方说 是％ 、…、 V„， 那 么可以 把该表 达式看 
作 NOT^Cv^AND/jOJAND … AND/?(vJ) 。 然后， 可以 应用德 摩根律 把该表 达式重 新写为 
NOTpODORNOTpOgOR  —  ORNOT/jOJ。 在有限 定义域 的假设 之下， 这一表 达式就 等同于 
(3X)(N0T p{X)) , 也就 是说， 对 某个对 勺值， 扒幻 为假。 

事 实上， 这一 变形并 不取决 于定义 域的有 限性， 它 对每种 可能的 解释来 说都是 成立的 。也 
就 是说， 下面 的等价 对任何 表达式 E 来说 都是重 言式。 

(not((VX)^))  =  ((3X)(N0T  E))  (14.9) 

粗略 地讲， （14.9) 表示， 刚好 在存在 某个翊 值 令五为 假时， 五对所 有的減 卩不 为真。 

还 有一个 类似的 重言式 让我们 可以把 NOT 压 入存在 量词。 

(not((3X)^))  =  ((VX)(N0T  E))  (14.10) 

粗 略地讲 就是， 刚 好当五 对所 有; ^来 说都为 假时， 不存在 对吏五 为真。 

♦ 示例 14.17 

考虑我 们根据 命题逻 辑重言 式;?  OR  NOT  p ， 利用替 换原则 得到的 重言式 

(VX)^(X)0R  N0T((VX)J9(X))  (14.11) 

可以令 (I4.9) 中的及 卞⑻， 用 (3X)(NOT;?(J0) 替换 (R11) 中的 N0T((VZMJQ) ， 得到 重言式 

(VX)^(X)OR(3X)(NOT  p{X)) 

也就 是说， 要么 AX) 对所有 的減卩 为真， 要么存 在某个 X 令/; (X) 为假。 

14.7.5 把量 词移过 AND 和 OR 

在从左 向右应 用法则 (14.9) 和 C14. 10) 时， 可以把 量词移 到否定 之外， 并在 这样做 的过程 中“反 
转” 量词， 也 就是用 V 代替 3, 用 3 代替 V。 同样， 可 以把量 词移到 AND 或 OR 之外， 不 过一定 
要 小心， 不 能改变 其中岀 现的任 何变量 的约束 情况。 还有， 我们 在移过 AND 或 OR 时不会 反转量 
词。 这些法 则的表 达式为 

(^AND(^X)F)  =  (QX)(E  AND  F)  (14.12) 

(E  OR(QX)F)  =  (QX)(E  OR  F)  (14.13) 

其 中五和 F 是 任何表 达式， 而 g 是任一 量词。 不过， 我们 要求雄 五中不 是自由 变量。 

因为 AND 和 OR 者 卩是满 足交换 律的， 所 以还可 以使用 (14.12) 和 (14. 13) 移动 附加到 AND 或 OR 左 
操作 数上的 量词。 例如， 由 (14.12) 以及 AND 的交换 律可得 出如下 表达式 

((QX)E  AND  F)  =  {QX\E  AND  F) 

这里， 我 们要求 幻生^ 中 不是作 为自由 变量出 现的。 

♦ 示例 14.18 

我们来 为示例 1 4. 1 7 中得岀 的重 言式， 也就是 

(VX)^(X)OR(3X)(NOT  p{X)) 

变形， 使得量 词都在 表达式 之外。 首先， 需 要为两 个量词 之一所 使用的 变量重 命名。 根 据法则 
(14.6), 可以用 （3r)NOT；?(r) 替代 (3x)NOT；?(；n ， 得出 重言式 
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(VX)/7(X)OR(37)(NOT  p{Y))  (14.14) 

现在可 以利用 (14.13) 的 变形， 也就是 利用量 词移到 OR 运算 左操作 数上的 那个重 言式， 将 V 移到 
OR 之外， 得到 的表达 式就是 

(VX)(^(X)OR(37)(NOT  ^(7)))  (14.15) 

表达式 (14.15) 与 (14.14) 只 是形式 不同， 含义却 没什么 不同。 （14.15) 表述 的是， 对 所有的 X 的值， 
以 下两条 中至少 有一条 成立： 

(1)  为真； 

(2)  存在 某个值 7, 使; 9(7) 为假。 

要知道 (14.15) 为 何是重 言式， 可以 考虑对 应础 某个值 V。 如果所 考虑的 解释使 Av) 为真， 那么 
有 /7(J0OR(37)(NOT；7(J0) 为真。 如果〆 v) 为假， 那么在 这一解 释中， （2) 肯定 成立。 特 别要说 
的是， 当 F  =  v 时， NOT/p(JQ 为真， 因此 (3；H(NOT；7(7)) 为真。 

最后， 可 以应用 (14.13)， 将 37 移到 OR 运算 之外， 得到 的表达 式就是 

(VX)(37)(/7(X)OR  NOT  p{Y)) 

该表达 式也一 定是重 言式。 粗略 地讲， 它 所表述 的是， 对每个 X 的值， 存 在某个 7 的值， 使得 
/?(X)OR  NOT  p{Y) 为真。 要知道 原因， 设 v 是尤 可能 的取值 之一。 如果 p(v) 在给 定解释 / 之下 为真， 
那 么显然 有如下 表达式 为真， 不管 7 是 什么。 

/?(JQOR  NOT  p(Y) 

如果 在 解释冲 为假， 就 可以为 7 选择 V， 这样卩 r)b(J0ORNOT 扒 7)) 就 为真。 

14.7.6 前束式 

法则 (14.9)、 （14.10)、 （14_12) 和 (14.13) 带 来的结 果是， 给定 任一涉 及量词 与逻辑 运算符 AND、 
OR 和 NOT 的表 达式， 可 以为其 找到量 词全部 在外部 （在 表达 式树的 顶部） 的 等价表 达式。 也就 
是说， 可以找 到形如 


{Q^XQ.X.y-iQ.X^E  (14.16) 

的 等价表 达式， 其中 G、 …、 a 各自代 表量词 V 或 3 中的某 一个， 而 且子表 达式五 是无量 词的。 
如 此则称 表达式 (14. 16) 是 前束式 （ prenex  form  ) 的。 

通 过以下 两步， 就可 以把表 达式变 形为前 束式表 达式。 

(1)  修正表 达式。 也就 是说， 利 用法则 (14.6)， 使 各个量 词引用 不同的 变量， 岀现在 一个量 
词中的 变量既 不会出 现在另 一个量 词中， 也 不会作 为表达 式的自 由变量 出现。 

(2)  然后， 根 据法则 (14.9) 和 (14.10) 把各量 词移过 NOT, 根 据法则 (14.12) 移过 AND, 并根据 
(14.13) 移过 OR。 


前束 式程序 

原则 上讲， 只要重 命名所 有局部 变量， 使它 们全都 具有不 同的变 量名， 然后 将它们 的声明 
移 到主程 序中， 我们也 可以把 C 语言 程序 表示为 前束式 程序。 不 过一般 不会这 么做， 而 是会选 
择在局 部声明 变量， 比 方说， 这样 一来就 不必担 心为在 10 个不同 函数中 用作循 环指标 的变量 i 
使用各 种不同 的变量 名了。 对逻辑 表达式 来说， 通常 都有理 由将表 达式表 示为前 束式表 达式， 
虽 然这一 问题超 出了 本书的 范围。 
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♦ 示例 14.19 

示例 14.17 和示例 14.18 都是 这一过 程的 例子。 从给岀 表达式 (V^>(Z)OR  NOT((VX) p{X)) 
的示例 14.17 开始， 通过把 第二个 V 移过 NOT, 就得 到示例 14. 18 中一 开始的 表达式 

(VX)^(X)0R(3X)(N0T  p{X)) 

然后我 们为用 到的第 二个; dl 命名， 这是一 开始就 可以完 成而且 应该完 成的。 通过 把两个 
量 词移过 OR 运 算符， 就得到 前束式 表达式 (VZ)(3y)(/7(；nOR  NOT p{Y))  o 

请 注意， 涉及 AND、 OR 和 NOT 之外的 逻辑运 算符的 表达式 也可以 变形为 前束式 表达式 。正 
如我 们在第 12 章 中了解 到的， 每种 逻辑运 算符都 可以用 AND、 OR 和 NOT 表示 岀来。 例如， E  —  F 
就可以 替换为 NOT 五 OR  F。 如果 把各逻 辑运算 符都用 AND、 OR 和 NOT 表示 出来， 就能够 应用刚 
刚概述 过的变 形方式 找到等 价的前 束式表 达式。 

14.7.7 量 词的重 新排列 

最 后要介 绍的重 言式指 出了， 将 全称量 词应用 于两个 变量， 排列这 两个量 词的次 序是没 
关 系的。 同样， 也可 以用任 一次序 排列两 个存在 量词。 严 格地讲 就是， 以下两 个表达 式是重 
言式。 


(VX)(VY)£  =  (VY)(VX)£  (14.17) 

(3X)(37)^  =  (37)(3X)^  (14.18) 

请 注意， 根据 (14.17)， 我 们能够 把任一  V 串 排列 成选定 的任意 次序。 事实 
上， （14.17) 就是 V 的交 换律。 同样 的结论 对法则 (14.18) ( 即 3 的交 换律） 也是 成立的 。 

14.7.8  习题 

(1)  将以下 表达式 变形为 修正表 达式， 也就 是说， 任两个 量词不 会共用 同一变 量的表 达式。 

(a)  (3X)((N0TjP(X))and((37)(^(7))0R(3X)(9(X,Z)))) 

⑻ (3X)((3X)^(X)OR(3X)g(X)OR  r{X)) 

(2)  通过 把各自 由变量 全称量 词化， 将以 下表达 式转换 为闭表 达式。 如 果需要 的话， 可 以为变 量重命 
名， 使两 个量词 不会使 用相同 变量。 

(a)  ^(X,7)AND(37)g(7) 

⑻ （vxywx’iooRpxxr’x)) 

(3)  * 法则 (M.12) 是 否暗指 户(尤10即穴奴)9(1)与(妓)(；7(1,}0_以(1))是等价的？ 对自己 的回答 
作岀 解释。 

(4)  把习题 (1) 中的表 达式变 形为前 束式表 达式。 

(5)  * 说明如 何把量 词移过 ^ 运 算符。 也就 是说， 如何把 表达式 {{Q,X)E)  ->  ({QJ)F) 变 形为前 束式表 
达式。 大 家需要 对五和 F 中的 自由 变量进 行什么 约束？ 

(6)  我们可 以利用 重言式 (14.9) 和 (14.10) 把 NOT 移 进量词 和移岀 量词。 利用这 些法则 以及德 摩根律 ，可 
以移动 所有的 NOT, 使它 们直接 应用到 原子公 式上。 为下列 表达式 应用这 种变形 

(a)  NOT((VX)(37)^(X,7)) 

⑻  NOT  ( (VX)  ( ^(X)OR(3  Y)q(X,  7))) 

(7) * 只要 (3X) 五是重 言式， 五 就是重 言式， 这 样的说 法是否 正确？ 
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14.8 谓词 逻辑中 的证明 

在 14.8 和 14.9 这 两节中 将讨论 谓词逻 辑中的 证明。 不过， 我们 不会把 12.11 节 中的分 解法扩 
展到 谓词逻 辑中， 虽 然这样 也是可 行的。 事 实上， 分 解对很 多使用 谓词逻 辑的系 统来说 也是极 
为重 要的。 这种 证明机 制将在 12.10 节中 介绍。 回顾 一下， 在 命题逻 辑的证 明中， 给定某 些表达 
式 E'、 E2 、…、 尽作 为前提 或者说 “公 理”， 并构造 一系列 表达式 （行） ， 使各 表达式 符合下 
列条件 之一。 

(1)  为尽 之一； 

(2)  根 据推理 规则， 是用 之前 的 0 个或 更多表 达式得 到的。 

推 理规则 必须具 有以下 属性， 只要我 们因为 6、 巧 、…、 F 出现在 表达式 列中， 而可 以向表 
达式列 中添加 F， 就有 

(FjAND  F2AND  ••-  ANDFJ^-F 

是重 言式。 

谓词逻 辑中的 证明基 本是相 同的。 当然， 作为前 提和证 明中各 行的表 达式都 是谓词 逻辑表 
达式， 而 非命题 逻辑表 达式。 此外， 一 个表达 式的自 由变量 与另一 个表达 式中同 名的自 由变量 
是不能 存在关 系的， 所 以会要 求前提 和证明 中各行 都是闭 公式。 

14.8.1 隐式全 称量词 

然而， 一 般约定 在书写 证明中 的表达 式时， 不会显 式给出 最外层 的全称 量词。 例如， 考虑 
7K 例 14.3 中 的 表达式 

(c^g-f'CSlOr,  S,  G)AND  snap  (S, UC. Brown',  A,  P)^)  answer{G)  (14.19) 

表达式 (14.19) 可能 是证明 的某一 前提。 在示例 14.3 中， 我们 凭直觉 将其看 作谓词 的 定义。 
比 方说， 我们在 a/wwer (” A”)， 也就是 C.Brown 的 CS101 课 程得了 A 的证 明中可 能用到 (14.19)。 

在示例 14.3 中， 对 (14.19) 含 义的解 释是， 对 所有的 A  G、 J 和尸 的值， 如果说 学号为 劝勺学 
生 CS101 课 程得到 了成绩 G, 也就 是说， 如果 agC’CSIOdG) 为真， 而且 学号为 ^ 的学 生名叫 
C.Brown, 地址丸 4， 电话 号码为 也 就是说 ， 如果廳 C.Brown”,A,P) 为真， 那么 G 就是 
一种 答案， S 卩 a^mver(G) 为真。 在示例 14.3 的 那个例 子中， 我 们还没 有正式 的量词 概念。 不过， 
现在 看到， 真正 想要断 言的是 

( V5')(V G)(VA)(VP) (^^(^CSl 0 r, S, G) AND  snap{S, "C.Brown", answer {G)^ 

因为 经常需 要在表 达式前 引人一 串全称 量词， 所 以我们 会用简 化符号 (V*)^ 表示 一串全 称量词 
(yxl)(yx2y--{yxk)E  , 其中 {、 ；、 …、 心是表 达式五 的自由 变量。 例如， （14.19) 就可 以写成 
(V*)((c^("CS101",5,G)AND  snap{S；'CBxown\A,P))  answer{G)) 

不过， 我们将 继续把 五中的 自由变 量称为 (V*) 五中的 “ 自由变 量”。 这样使 用术语 “ 自由” 严格 
来讲 是不正 确的， 但 是非常 实用。 

14.8.2 作为 推理规 则的变 量替换 

除了第 12 章 中讨论 过的对 应命题 逻辑的 推理规 则外， 比如肯 定前件 式假言 推理， 以 及在证 
明 的前 一行中 进行以 相等换 相等的 替换， 对谓词 逻辑中 的 证明来 说还有 一种特 别实用 的 涉及变 
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量替换 的推理 规则。 如果 已经断 言作为 前提或 证明中 某一行 的表达 式五， 而且 方’ 是通过 用变量 
或常 量替换 五中某 个自由 变量形 成的表 达式， 那么 五—五’ 是重 言式， 而且 我们可 以向证 明中添 
加五 ’这样 一行。 务必 记住， 我 们不能 替换五 的约束 变量， 只能 替换五 的自由 变量。 

严格 地讲， 可以用 函数似 ^作 为 表达式 变量的 替换。 对方中 各自由 变量1  而言， 可 以定义 
似 6( JQ 为某 个变量 或某个 常量。 如果没 有为似 6(1) 指 定值， 就要假 设想要 的是似 6(Z)=Z。 
如果 五是任 一谓词 逻辑表 达式， 表达式 sub(E) 就 是将五 中所有 作为自 由变量 岀现的 X 用 似 替 
代后得 到的。 


证明中 出现的 表达式 

请 记住， 如果 在证明 中看 到表达 式五， 它 其实是 (V*) 五 的简略 形式。 要注意 到五三 (V*) 五一 
般不是 重言式 ，因 此 我们显 然是在 用一 个表达 式代表 一个与 之不同 的表 达式。 

还要 记住， 当证明 中出现 五时， 并不是 在断言 (V*) 万是重 言式， 而是 在断言 （V*) 五是# ■据前 
提得 出的。 也 就是说 ， 如果尽 、尽 、…、 尽是 前提， 而且 正确书 写了证 明中的 行五， 则可知 
((V*) 尽 AND(V*) 五 2 AND  … AND(V*) 五 " ） 4  (V*)£ 

是重 言式。 


变量替 换法则 说明方 4 幻是重 言式。 因此， 如 果五是 证明中 的行， 就可 以在同 一证明 
中加入 sub(E) 这一行 0 

♦ 示例 14.20 

考虑以 表达式 (14.19) 

(c^C'CSlOr^,  G)AND  snap(S, UC. Brown',  A,  P)^j  answer  {G) 

作 为五。 可以 将一种 可能的 替换似 6 定义为 

sub(G)  =  ”B” 
sub(P)  =  S 

也就 是说， 这里要 用常量 B 替换 变量 G， 并 用变量 ^ 替换 变量 i3。 而变量 S 和 ^ 保持不 变。 表达式 
sub(E) 就是 

(c 叹 (“CSlOl'WjAND  snap(S, UC. Brown',  A,  S))  answer^  B'')  (14.20) 

通俗 地说， 表达式 (14.20) 的意 思是， 如 果学生 ^ 的 CS101 课 程得了 B， 该 学生的 姓名是 C.  Brown, 
而且该 学生的 电话号 码和学 号是唯 一的， 那么 “B” 就是 答案。 

请 注意， （14.19) 表达了 更具一 般性的 规则， 而 (14.20) 只是它 的一个 特例。 也就 是说， 只有 
在 成绩为 B， 而且 C.  Brown 的学 号巧合 到与他 的电话 号码相 同时， （14.20) 才 能推理 岀正确 答案， 
否则 (14.20) 不说 明任何 问题。 

♦ 示例 14.21 

表达式 


p{X  ,Y)OR{3Y)q{X  ,Z)  (14.21) 

中 含有自 由变量 以及约 束变量 Z。 回想 一下， 从技术 上讲， （14.21) 其实 代表闭 表达式 
(v*)(；7(x,7))or(3Z)^(x,z) , 而 这里的 (v*) 代表 对自由 变量对 nr 的 量化， 也 就是有 
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(VX)(V7)(  p(X,  Y))0R(3Z)q(X,Z) 

在 (14.21) 中， 可以 替换似 =3和《^00  =b， 得到表达式/7(«,6)0只(32)^(^，幻。 不难 
看岀， 这一 不含自 由变量 （因 为我 们用常 量替换 了其中 各自由 变量） 的表 达式是 (14.21) 的一个 
特例， 它陈述 了要么 为真， 要么存 在某个 Z 的值， 使得 为真。 正式 地讲， 
((VX)(V7)(^(X,  Y)0R(3Z)q(X,  Z)))  —、p(a,  b)0R(3Z)q(a,  Z)) 

是重 言式。 

有人可 能想知 道在用 a 和 替抵球 jyg 寸 (14.21) 中隐含 的量词 会发生 什么。 答 案是， 得 到的表 
达式 b)0R(3Z)q(a,  z) 中 不存在 自由 变量， 隐含的 表达式 (V*)(^(a,  b)0R(3Z)q(a,  z)) 没有全 
称量词 前缀， 也 就是说 

p(a,  b)0R(3Z)q(a,  Z) 

在这种 情况中 只代表 自身。 我们 不会把 (V*) 替换为 (Va)(W>) ， 因为常 量不可 能被量 词化， 这样 
做 是行不 通的。 


替换 的特例 


示例 14.20 是一般 情况， 其中只 要我们 对表达 式五应 用替换 得到 的就是 五的特 例。 如果 
似办 用常量 c 替换 变量; 那么表 达式似 6( 五） 就只 适用于 Z  =  c 的 情况， 而 不适用 于其他 情况。 
如果 ^让 两个变 量变得 相同， 那么似 6(五） 就只适 用于两 个变量 具有相 同值的 特例。 然而 ，变 
量 的替换 往往正 是我们 进行证 明时所 需的， 因为它 们让我 们可以 在特例 中应 用一般 规则， 而且 
让 我们可 以 将规则 组合 起来构 成其他 规则。 我 们将在 14.9 节 中研 究这种 形式的 证明。 


14.8.3  习题 

根据 前提， 利用 12.10 节 中讨论 过的推 理规则 以及刚 刚讨论 过的变 量替换 规则， 证明以 下结论 。请 
注意， 大家可 以把任 何命题 或谓词 演算的 重言式 用作证 明的某 一行。 不过， 请尽量 只使用 12.8 节、 
12.9 节和 14.7 节 中介绍 的重 言式。 

(a)  根 据前提 (VX);?(X) ， 证 明结论 (VZ)；7(X)OR  ^7) 。 

(b)  根 据前提 (BX)〆/，7) ， 证 明结论  NOT((VX)(NOT  p{X,a)))  0 

(c)  根 据前提 p(X) 和 p(X)->  q{X) , 证 明结论 。 

14.9 根 据规则 和事实 的证明 


谓词逻 辑中形 式最简 单的证 明可能 涉及以 下两类 前提。 

(1)  事实 （fact), 它 们是基 本原子 公式。 

(2)  规则 （rule)， 它们是 “ 如果- 那么” 形 式的表 达式。 我们 在示例 14.20 中 讨论过 的有关 
C. Brown 在课程 CS 1 0 1 所取 得成绩 的查询 ( 1 4. 1 9) 就是一 个例子 

(c5g(<lCSl  0  T,  S,  G) AND  ■s77.a/»(5<，“C.Brown’，,』,/}))  ->  answer {G) 

规则 由蕴涵 符号左 侧的一 个或更 多原子 公式的 AND 以及 蕴涵符 号右侧 的一个 原子公 式组成 。假 
设岀 现 在右部 的任 何变量 也会岀 现在 左部中 的 某处。 

规则 的左边 （前 提） 叫 作左部 （body), 而 右边叫 作右部 （head)。 左 部中的 任一原 子公式 
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叫作 子目标 （subgoal)。 例如， 在上 面再次 表示出 的规则 (14.19) 中， 子 目标是 c^(”CS10r,\G) 
和 572fl/?(5V’C_Brown  ”,』，/*) 。 右部是  amwer(G) 。 

规则 的一般 使用思 路是， 规 则是可 以应用 于事实 的一般 原则。 我们会 试着通 过替换 规则中 
的 变量， 将 规则左 部的子 目标与 给定或 已经证 明的事 实匹配 起来。 如 果能这 样做， 这种 替换会 
使右部 成为基 本原子 公式， 因为已 经假设 右部的 各变量 都会出 现在左 部中。 我们 可以把 这一新 
的基 本原子 公式添 加到自 己 可支配 的事实 集中， 以 作进一 步证明 之用。 

♦ 示例 14.22 

根 据规则 和事实 的证明 有一种 简单的 应用， 就 是用于 回应第 8 章 讨论的 关系模 型中的 查询。 
关系 对应的 是谓词 符号， 而关系 中的元 组则对 应着基 本原子 公式， 这些基 本原子 公式具 有谓词 
符号 以及依 次等同 于元组 组分的 参数。 例如， 由图 8-1 中的 “ 课程- 学号- 成绩” 关系， 可 以得到 
如 下事实 

CS1 0 1”,  1 2345,  “A”）  CS1 0 1”,  67890,  “  B”） 

csgC  EE200”， 12345,  “  C”）  csgC  EE200”， 22222,  “  B+”） 

CS1 0 1”,  33333,  “  A-”） csgC  PHI  00”,  67890,  “  C+”） 

同样， 由图 8-2a 中的 “学 号-姓 名-地 址- 电话” 关系， 可以 得到以 下事实 
snap{\ 2345, “ C .Brown”， “1 2 Apple  St”, 555-1234) 

奶 fl/?(67890, “L. Van  Pelt”, “34Pear  Ave.”,555  -  5678) 
snap(22222, aP.Patty?,, a56Grape  Blvd  ”,555  -9999) 

对这些 事实， 可以添 加规则 (14.19) 

(c 叹 (“  CS1 0 1”,  5,  G)  AND  狀 op  ( 5,  “  C.Brown”, 為  P))  answer  [G^ 

从而完 成前提 列表。 

假设想 要证明 flower (” A”) 为真， 也就 是说， C.Brown 的 CS101 课 程得了 A。 在证明 开头部 
分 要列出 所有的 事实和 规则， 虽 然在这 里我们 只需要 规则、 第一条 事实和 第一条 狀叩 事实 
即可。 证 明的前 3 行就是 

(1)  CS1 0 Y\  S,G)  ANDsnap ( S, u C.Brown,?,  answer (^G) 

(2)  c^(“CS101”,12345，“A”） 

(3)  wmp(12345, “C.Brown”, “12Apple  St. ”,555 -1234) 

下 一步是 利用推 理规则 （如 果尽和 尽是证 明中某 两行， 则可 以把尽 AND 尽 写为证 明中的 一行） 
把 第二行 和第三 行结合 起来， 因此就 有了这 样一行 

(4)  ag(“CS10r，12345,“A’’)AND 

snap{\ 2345, “ C .Brown”, “1 2 Apple  St.”, 555-1234) 

然后， 利用自 由变量 的替换 法则特 化我们 的规则 —— 第⑴ 行， 使它适 用于第 (4) 行中 的常量 。也 
就 是说， 要在第 (1) 行中 进行以 下替换 

«^(s)  =  “csior 

sub[G^  =  “A” 
subi^A^  =  “12 Apple  St.” 

^(P)  =  555-1234 


得到如 下一行 
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(5)  ag(“CS101”，12345,“A”)AND  s ■户 (12345,“C.Brown”，“12AppleSt.”,555-1234) 

answer^  Ay,) 

最后， 对 (4) 和 (5) 应用肯 定前件 式假言 推理就 得到该 证明的 第六行 也是最 后一行 

(6)  a 似 wer(“A”） 。 

14.9.1 简 化的推 理规则 

如果看 过示例 14.22 中 的证明 ，就 可以得 岀以下 根据基 本原子 公式和 逻辑规 则构建 证明的 策略。 

(1)  选择 一条要 应用的 规则， 并选 择一种 替换， 将 各个子 目标转 换成基 本原子 公式， 这些基 
本原 子公式 要么是 给定的 事实， 要么 是已经 证明的 内容。 在示例 14.22 中， 我们用 12345 替换了 & 
等等。 得到的 结果就 如示例 14.22 的第 (4) 行 所示。 

(2)  为替换 过的各 个子目 标创建 证明中 的行， 要 么因为 这些子 目标是 事实， 要 么用某 种方式 
推断出 它们。 这一步 是示例 14.22 中 的第 (2) 行和第 (3) 行。 

(3)  创建一 行， 表示与 替换过 的各子 目标对 应的那 几行的 AND。 这 一行是 替换过 规则的 左部。 
在示例 14.22 中， 这 一步出 现在第 (5) 行。 

(4)  利用肯 定前件 式假言 推理、 第 (3) 步替 换过的 左部， 以及第 (1) 步替 换过的 规则， 推论岀 
替 换过的 右部。 这 一步就 是示例 14.22 的第 (6) 行。 

可以 按照如 下方式 把这些 步骤结 合成一 条推理 规则。 如 果在前 提中存 在规则 尺， 而 且存在 
替换似 况茜 足在替 换过的 实例似 中， 各子目 标都是 证明中 的行， 就 可以把 的 右部添 
加为证 明中的 一行。 


规则 的诠释 

和 所有出 现在证 明中的 表达式 一样， 规 则也是 因式全 称量词 化的。 因此 可以把 (14. 19) 说成 
是 “对 所有的 &  G、 4#， 如果 &^('’08101’’,&6)为真， 而 且皿中 (VC.Brown”y) 为真， 
那么 a 似 wer(G) 为 真”。 不过， 可以将 出现在 左部中 但未出 现在右 部中的 变量， 比如又 J 和 P， 
当 作左部 范围内 的存在 量词。 正式地 讲就是 (14. 19) 等价于 

(VG)((35)(3^)(3JP)(c^("CS101",5,G)AND  ^a/?(5,"C.Brown",4^))  — answer  ⑼） 

也就 是说， 对 所有的 G， 如果 存在又 j 和 P 满足 cygpCSlOrAGMT^mpp/'C.Brown”,』,/5)# 
为真， answer (G) 就 为真。 

这种 说法更 接近我 们应用 规则的 方式。 它 表示， 对右 部中出 现的变 量的各 个值， 我 们应该 
试着找 出只出 现在左 部中的 变量使 得左部 为真时 的值。 如果找 到这样 的值， 则右 部对所 选的右 
部 变量的 值而言 为真。 

要知 道为什 么可 以把只 出 现在左 部中的 变量当 作 存在量 词化的 变量， 首先 从形如 B  —  H 
这样 的规则 开始， 其中 5 是 左部， 付是 右部。 设 Z 是只 出现在 S 中的 变量。 这一规 则隐含 着如下 
形式 

而且根 据法则 （14.17)， 可以 让对应 I 的量词 位于最 内侧， 将表达 式写为 在 
此， （V*) 包 含了除 Z 之外 的所有 变量。 现在可 以利用 只使用 NOT 和 OR 的等价 表达式 ，即 
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(V*)(VZ)((N0T5)0R/f) 来代 替蕴涵 式了。 因为; T 没有 出现在 丑 中， 所 以可以 反向应 用法则 
(14.13)， 从而让 (VZ) 只 应用于 NOT  5 ，得到 (V*)(((VX)NOT  B)OR  。接 下来 ，利用 法则 （14.10) 
把 (VX) 移动 到否 定内， 就得出 

(V*)((NOT (彐 X)(NOT  NOT  5))0R  //) 

消 除双重 否定之 后就是 （V*)((N0T(3X)5)0R/f) 。 最后， 还 原蕴涵 就得到 

(V*) ((㈤ 5 卜斗 


♦ 示例 14.23 

在示例 14.22 中， 规贝 忉 是 (14.19)， 或者说 

(c 吆 (”  CS1 0 1”,  5,  G)  AND  snap(S,  ”  C.Brown  ”,  4  P))  ― answer  [G^ 

替换 就 如示例 14.22 中 给出的 那样， 而且^ 的 子目标 是示例 14.22 中的第 (2) 和第 (3) 行 。根 
据新 的推理 规则， 可以 立即写 岀示例 14.22 的第 (6) 行， 而不 需要第 (4) 行和第 (5) 行。 其实， 只要 
第⑴行 （规则 本身） 是 给定的 前提， 就可以 从证明 中省略 掉它。 


♦ 示例 14.24 

再举 个规则 在证明 中如何 应用的 例子。 考虑 一下图 8-2b 中的 “ 课程- 前提” 关系， 其中的 8 
个事 实可以 用如下 8 个具 有谓词 的 基本原 子公式 表示。 

@  (“  CS1 0 1”,  “  CS1 00”)  cp  (“  EE200”， “  EE005”) 
cp(“  EE200”,  “  CS1 00”)  cp  (“  CS1 20”,  “  CS1 0 1”) 

C/?  ( “  CS1 2 1”,  “  CS1 20”  ；）  cp  (“  CS205”,  “  CS1 0 1”) 
c^“CS206”，“CS121”)  Cjp(“CS206”,“CS205”) 

我们可 能希 望另一 个谓词 before (X,Y) 表 示在选 修课程 X 之前 必须修 完课程 7。 课程 7 可 能是 X 的 
前提， 或是 Z 前提的 前提， 诸如 此类。 可 以通过 以下描 述递归 地定义 “ 之前” 的 概念。 

(1)  如果 F 是 Z 的前 提， 那么 Yte ■之前 。 

(2)  如果 Z 是 Z 的 前提， 而且 TftZ 之前， 那么 Fte 之前。 

规则 (1) 和 (2) 可以表 示为如 下的谓 词逻辑 规则。 

cp(X,Y)^  before{X,Y)  (14.22) 

(cp(X,Z)AND  before (Z,Y))^  before(X,Y)  (14.23) 

现在 要来探 索一些 根据本 示例开 头部分 给出的 8 条 “ 课程- 前提” 事实以 及规则 (14.22) 和 
(14.23) 可以 证明的 te/ore 事实。 首先， 可以应 用规则 (14.22) 把各条 印 事实 转换成 相应的 事 
实， 得到： 


〜 /ore(“CS101”,“CS100”） 
before (“  EE200”， “  CS1 00”) 
心 /ore(“CS121”,“CS120”) 
before CS206”,  “  CS12 1”) 


before (“  EE200”,  “  EE005”) 
before  ( “  CS1 20”,  “  CS10 1”) 
〜 /ore(“CS205”,“CS101”) 
心 /ore(“CS206”,“CS205”) 
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例如， 可以对 (14_22) 使 用替换 

^1(x)  =  wcsior, 

^1(7)  =  aCS100w 

得 到替换 过的规 则实例 

c;?(“CS101”，“CSK)0”)  4  6e/ore(“CS101”,“CS100”) 
这条规则加上前提卬(“€8101”,“08100”）， 就 给岀了 

〜 /ore(“CS10r,“CS100”) 

现 在可利 用规则 （14.23) 、 前提 卬 (“CS101”,“CS100”） 以 及刚证 明 的事实 
〜/ore(“CS101”,“CS100”）， 证明 

before^  CS\  20”,  “  CS1 00”) 

也 就是， 对 (14.23) 应 用替换 

sub2(x)  =  ^(csno,, 

sub2(Y)  =  iiCSm,> 
sub2(Z)  =  <(CSm,, 

得 到规则 

(c/?(“CS120”，“CS101”)AND  〜/ore(“CS101”,“CS100”))^^e/ore(“CS120”,“CS100”) 

然 后可以 推断出 这一替 换过的 规则的 右部， 从 而证明 

before  (UCS\  20”,  “  CS1 00”) 

同样， 可以对 基本原 子公式 

afcsur^csuo”） 

和心 /狀6(“08120”,“08100”)应用规则(14.23)， 证明 6e/ore(“CS121”,“CS100”） 。 然 后对基 本原子 
公式  c/?(“CS206，，，“CS121”) 和  beforeC  CS1 2 lr, CS1 00J,) 应 用规则 (14.23) ， 证明 

before^  CS206”,  “  CS1 00”） 

还有若 干条其 他的心 /ore 事 实也可 以通过 同样的 方式来 证明。 


图中 的路径 

示例 14.24 所处 理的， 是规 则的一 种常见 形式， 它在 给定有 向图中 弧的情 况下， 定 义了图 
中的 路径。 把课 程当作 节点， 如 果课程 6 是课程 a 的前 提， 就 存在弧 a  — b。 那么 before(a,b) 就 
对 应着从 a 到 6 的某 一条 长度为 1 或 更长的 路径。 图 14-9 展示了 基于图 8-2b 中 “ 课程- 前提” 信息 
绘 制的有 向图。 

在图表 达是前 提时， 我 们希望 它是无 环的， 因为 选修某 门课程 的前提 是修过 这门课 本身。 
不过， 即便图 中含有 环路， 同类的 逻辑规 则也仍 然用弧 定义了 路径。 可以把 这些规 则写成 

arc  (X,  7)  ^  path(X,Y) 

也就 是说， 如 果存在 从节点 到节点 7 的弧， 就 存在从 到 F 的路 径， 而且 
{^arc[X , Z^j MUDpath^Z ,Y^j  path{X ,Y、 

也就 是说， 如果 存在从 到 某节点 z 的弧， 而且 存在从 z 到 r 的 路径， 那么 存在从 z 到 f 的路 
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径。 请注意 ，这些 内容与 （14.22) 和 (14.23) 表 示的是 同样的 规则， 其中 用谓词 arc 代替了 印， 用 path 
代替了  before。 


CS206 


CS121  CS205 


图 14-9 表示 成有向 图的前 提信息 


14.9.2  习题 

(1)  * 我们 可以按 照以下 方式证 明示例 14.24 中 的谓词 心/ore 是谓词 cp 的传递 闭包。 假设存 在一系 列的课 
程 q 、 c2 、…、 c„  , 其中 n 彡 2, 而且 &是02的 前提， 02是03的 前提， 以此 类推， 对 /  =  1、 2、 …、 
«-1 而言， cp(c;,c;+1) 是 给定的 事实。 通过对 / 的归纳 证明对 /  =  2 、 3、 …、？ 7, 有 beforeiCpC) ， bk 
而证明 9在& 之前。 

(2)  利 用示例 14.24 中的 规则和 事实， 证 明以下 事实。 

(a)  before^  CS1 20,?, u  CS1 00v) 

(b)  beforeC  CS206W, CS1 00w) 

(3)  通过 向示例 14.24 添 加规则 

(Z>e/ore(X,Z)AND  before[Z,Y^^>  before [X,Y) , 

可 以提高 处理前 提链的 速度。 也就 是说， 第一个 子目标 可以是 任一心 /we 事实， 而 不止是 前提事 
实。 利用该 规则， 为习题 (2) 的 (b) 小题 找出更 简短的 证明。 

(4)  * 示例 14.24 中 有多少 6e/ore 事实是 可以证 明的？ 

(5)  设 csg 是 代表图 8-1 中 “ 课程- 学号- 成绩” 关系的 谓词， C 办是 代表图 8-2c 中课程 -日子 -时刻 关系的 
谓词， cr 是 代表图 8-2d 中 “ 课程- 教室” 关系的 谓词。 并设 是表 示学号 为艰) 学生 D 
那天 时 在教室 i? 上课。 更精确 地讲， 学号为 的学生 选修的 课程是 那个时 间在那 个教室 上课。 

(a)  写岀用 cyg、 cttt 和 cr 定义 w/zere 的 规则。 

(b)  如果对 应谓词 cyg、 cd/z 和 cr 的事 实是图 8-1 和图 8-2 中给 岀的， 那么可 以推导 岀哪些 wAere 事实？ 
证 明两条 这样的 事实。 

14.10 真理和 可证性 


在 为谓词 逻辑的 讨论收 尾时， 我们 要介绍 一个更 为微妙 的逻辑 问题： 可证明 内容与 真实内 
容 之间的 区别。 前 面已经 看到过 这样一 些推理 规则， 它们允 许我们 证明命 题逻辑 或谓词 逻辑中 
的 内容， 但我们 不确定 给定的 规则集 合是否 完备， 是否允 许我们 证明每 一个真 命题。 例如 ，我 
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们断言 12.11 节中 所表示 的分解 对命题 逻辑而 言是完 备的。 分 解的一 种一般 化形式 （这里 没有涵 
盖） 对 谓词逻 辑而言 也是完 备的。 

14.10.1  模型 

不过， 要理解 证明策 略的完 备性， 就需 要掌握 “ 真理” 的 概念。 要发现 “真 理”， 需 要理解 
模型 （model) 的 概念。 每 种逻辑 对表达 式集而 言都有 模型的 概念， 这些模 型是令 表达式 为真的 
解释。 

♦ 示例 14.25 

在 命题逻 辑中， 解释 是真值 赋值。 考虑 表达式 Ex=  p  AND  g 和 五2  = 户 OR  r 。 涉 及变量 /? 、 g 
和 r 的表 达式有 8 种真值 赋值， 我们可 以用依 次对应 各变量 真值的 3 位 构成的 位串来 表示这 些真值 
赋值。 

只有真 值赋值 令^叫 都为真 （即 110 和 111 这两 种真值 赋值） 时， 它才 能令表 达式巧 为真。 
而 000、 001、 010、 011、 101 和 111 这 6 种真值 赋值可 以让表 达式馬 为真。 因此只 有一种 对应表 
达 式集说 ，五 2} 的模 型， 即 111， 因 为只有 该模型 出现在 两个列 表中。 

♦ 示例 14.26 

在 谓词逻 辑中， 解释是 14.5 节中定 义过的 结构。 我们来 考虑表 达式五 

{yX){3Y)p(X,Y) 

也就 是说， 对每个 对勺值 来说， 至少存 在一个 m， 使得 为真。 

如果对 定义域 乃中每 个元素 a 来说， 在乃中 存在某 个元素 6  ( 对各个 a 不一 定有 相同的 U 使 
得 “谓 词;? 的解 释” 这个关 系中具 有成员 “ 有序对 ~，0”， 就 说解释 使得五 为真。 这些解 释就是 
五的 模型， 其他的 解释则 不是。 例如， 如 果定义 域乃是 整数， 而且当 且仅当 时， 谓词; 9 的 
解释 使得; 为真， 我们就 有了对 应表达 式五的 模型。 不过， 定义域 乃也是 整数， 而且 P 的解 
释是当 且仅当 Z  =  72 时 p{X,Y) 为真， 这一解 释就不 是表达 式五的 模型。 

14.10.2  蕴涵 

在给 定表达 式集诉 ，馬, 的情 况下， 就 可以陈 述表达 式五为 真的含 义了。 如果 每个对 
应说 ，馬, … A } 的模型 M 也是对 应万的 模型， 就说说 石,… ，五 „} 蕴涵 （ entail ) 表达 式五。 双十字 
转门 （ double  turnstile  ) 运算符 1= 就表 示蕴涵 ，如 

Ex,  E2 ，…， En\=  E 

我们 需要凭 直觉意 识到每 种解释 都是一 个可能 存在的 世界。 当说 巧， E2 ，…， 恳 时， 也就是 
在说， 在使 表达式 石， E2 ，…， 尽为真 的每个 可能存 在的世 界中， £ 者卩 为真。 

蕴涵 的概念 应该是 与证明 的概念 形成对 照的。 如果我 们有某 个特定 的证明 系统， 比 如说分 
解 证明， 那么 可以使 用单十 字转门 （single  turnstile) 运算符 h 用同 样的方 式表示 证明。 也就是 
说， 

Ex， E2 ，…， En\~  E 

意味着 ，对当 前所拥 有的推 理规则 集而言 ，存在 从前提 g， E2 ，…， 尽 到五的 证明 。请 注意， h 运 
算符 对不同 的证明 系统可 能存在 不同的 含义。 还要 记住， 虽 然我们 一般乐 于使用 当且仅 当另一 
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者 为真时 一 '者 为真 的证明 系统， 但是 N 和卜不 一 •定是 相同的 关系。 

重言式 与蕴涵 之间有 着密切 联系。 特别 要指岀 的是， 假 设尽， E2 ，…， 尽 然后可 以声明 

(巧 AND£2 AND … ANDE")  4  E  (14.24) 

是重 言式。 若 某解释 / 使 (14.24) 左边 为真， 贝 lj/ 是 {尽, 馬,… ,五„} 的 模型。 因为心 E2 ，…， E 少 E ， 
所以 / 一定也 能使五 为真。 因此 / 使 (14.24) 为真。 

其他 的可能 就只有 / 使 (14.24) 的左边 为假。 这样 一来， 因 为当蕴 涵的左 边为假 时它恒 为真， 
可知 (14.24) 还是 为真。 因此 (14.24) 是重 言式。 

反 过来， 如果 (14.24) 是重 言式， 贝何 以证明 仏 E2 ，…， E，E 。 这里 把这一 证明留 作本节 
习题。 

请 注意， 我们的 论证并 不取决 于涉及 的表达 式是命 题逻辑 表达式 还是谓 词逻辑 表达式 ，或 
者是 我们没 有了解 的某种 其他逻 辑的表 达式。 只需要 知道， 重言式 是指那 些所有 “ 解释” 都使 
之为 真的表 达式， 而 表达式 或表达 式集的 模型是 指令这 一或这 些表达 式为真 的某种 解释。 

14.10.3 可证性 与蕴涵 的比较 

我 们想要 给定的 证明系 统允许 我们证 明所有 为真的 事物， 而且不 会证明 为假的 事物。 也就 
是说， 我 们希望 单十字 转门和 双十字 转门符 号表示 相同的 含义。 如 果只要 某事物 可证， 它也就 
被 蕴涵， 那么 该证明 系统是 相容的 （consistent)。 也就 是说， 尽， E2 ，…， 乂卜五 蕴涵 
Ex,  E2 ，…， EnVE 。 例如， 我们在 12.10 节中 讨论 过为什 么命题 逻辑的 推理规 则是相 容的。 准确 
地讲， 我们证 明了， 只要从 前提尽 、尽 、…、 开始, 并在 证明中 写岀一 行五， 就有 
(尽 顺0五2顺0...顺0&)4 五是 重言式 。根据 上面论 证过的 ，这就 等同于 表述心 E2 ，…， E，E  0 
我们 还希望 证明系 统是完 备的。 这样就 可以证 明所有 由前提 蕴涵的 事物， 即 便要找 到该证 
明是很 难的。 事实 证明， 12.10 节给岀 的推理 规则， 还有 12.11 节的分 解规则 都是完 备证明 系统。 
也就 是说， 如果仏 E2 ，…， E'E ， 则 仏 E2 ，…， 尽 h 芯也 在这些 证明系 统中。 完备的 谓词逻 
辑 证明系 统是存 在的， 虽然 我们不 会介绍 它们。 

14.10.4 哥德尔 不完备 性定理 

这个 现代数 学最引 人注目 的 结论之 一通常 被看作 与我们 刚说过 的谓词 逻辑存 在完备 证明系 
统是矛 盾的。 事 实上， 这 一结论 并未涉 及前面 讨论过 的谓词 逻辑， 而是关 系到谓 词逻辑 的一种 
特殊 形式， 这 种逻辑 只谈论 整数以 及常见 的整数 运算。 特 别要说 的是， 我 们必须 对谓词 逻辑加 
以 修改， 从而 引人对 应算术 运算的 谓词， 比如 

(1)  plus{X,Y,Z) , 我们 希望当 且仅当 Z  + 7  =  Z 时它才 为真， 

(2)  times(X,Y,Z) , 只有在 JTx；T  =  Z 时 为真， 以及 

(3)  less{X,Y) , 只有在 X<Y 时 为真。 

此外， 我们 需要对 解释中 的定义 域加以 限制， 以使这 些值都 是非负 整数。 完成这 一工作 有两种 
方式。 一种是 引入由 我们断 言为真 的表达 式构成 的表达 式集。 通过恰 当地选 择这些 表达式 ，任 
何满 足表达 式的解 释中的 定义域 都必须 “ 看似” 整数， 而且像 或 这 样的特 殊谓词 必须具 
有和同 名运算 相同的 行为。 

♦ 示例 14.27 

我 们可以 断言像 
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plus{X,Y,Z)^  plus{Y,X,Z) 

这样 表示加 法交换 律的表 达式， 或表 示<关 系 传递性 的 表达式 

[less(X,Y)  AND  less{Y, Z))^  less(X,Z) 

也许 理解哥 德尔的 定理为 谓词逻 辑带来 的限制 有种更 简单的 方式， 就 是假设 这种逻 辑只允 
许一种 模型， 这种 模型的 定义域 是非负 整数， 而且为 这些特 殊的谓 词给定 了与它 们的约 定含义 
对应的 关系。 例如， 我 们可以 令对应 谓词以 ^ 的 解释为 

{(a,b,c)  \  a+b  =  c} 

哥 德尔的 定理说 的是， 不管 选择什 么相容 的证明 系统， 总是存 在某个 为真但 不可证 明的表 
达 式五！ 更精确 地讲， 如果石 、尽 、…、 足是其 模型相 当于非 负整数 的这样 一些表 达式， 那么 
有尽， E2 ，…， E 少 E 为真, 但心 E2 ，…， 及十五 为假。 也就 是说， 在我们 选定的 证明系 统中， 
不可 能根据 {巧 ， 尽,… ，晃 } 证明五 。 

对 选定的 不同证 明系统 而言， 不 可证明 的表达 式五可 能是不 同的。 事 实上， 所 选的表 达式五 
可被 视作把 该表达 式本身 在给定 证明系 统中不 可证明 这一事 实编码 为整数 的一种 方法。 

14.10.5 计算机 能完成 的工作 的限制 

哥 德尔的 理论表 明我们 回答与 数学相 关的问 题的能 力是有 限的。 如果 拥有像 整数这 样复杂 
的数学 模型， 以及我 们在本 书中已 经见识 过的， 比整数 还要复 杂得多 的数学 模型， 就不 存在将 
真 命题与 假命题 区分开 的机械 方式。 我 们能做 到的最 多也就 是利用 某种相 容的证 明系统 以便可 
以寻找 证明。 如 果找到 一种， 就算是 非常幸 运了， 而且可 以确定 被证明 的命题 为真。 不过 ，这 
种找寻 可能一 直继续 下去， 而 永远都 找不到 证明， 即便 该命题 为真。 也就 是说， 我们定 义手头 
的数学 模型时 所做的 假设蕴 涵了该 命题。 

从哲 学的角 度讲， 这 种情况 说明了 数学永 远会是 充满乐 趣和挑 战的。 从 实践的 角度讲 ，它 
表明用 计算机 可以完 成的任 务是有 限的。 特别 要指岀 的是， 虽然 可以编 写程序 在简单 的系统 （比 
如命 题逻辑 或不含 任何特 殊谓词 或限制 的谓词 逻辑） 中寻找 证明， 但 没法为 足够复 杂的系 统完成 
这一 工作。 大 家应该 看看下 文附注 栏内容 “不 可判定 性”， 这 里讨论 了一个 与哥德 尔不完 备性定 
理 有关的 定理。 不可判 定性的 理论让 我们可 以指出 一些可 证明计 算机无 法解决 的具体 问题。 


不可 判定性 

逻 辑学家 阿兰. 图灵 （Alan Turing) 在 20 世纪 30 年代 就创立 了正式 的计算 理论， 这 要比根 
据他 的理论 构造的 电 子计算 机早出 现很久 。 这一 理论最 重要的 结果就 是发现 某些问 题是不 可判 
定的 （ undecidable  ), 无 论什么 计 算机都 不能解 答这些 问题 。 

该理论 最重要 的特征 是图灵 机 （ Turing  machine  ),  一 种由 有限自 动机 和被分 成无限 个方格 
的纸带 组成的 抽象计 算机。 在 一次移 动中， 图灵 机可以 读它的 读写头 （tape head) 看到 的那个 
方格中 所含的 字符， 并根据 这个字 符以及 图灵机 的当前 状态， 用另一 个字符 代替该 字符， 改变 
图 灵机的 状态， 并 将读写 头左移 或右移 一格。 很 明显， 所有真 实的计 算机， 以及 其他那 些研究 
计算 机应该 是怎样 的数学 模型， 都刚 好能计 算图灵 机可以 计算的 内容。 因 此可以 把图灵 机当作 
计 算机的 标准抽 象模型 ^ 

不过， 我们不 必详细 了解图 灵机是 怎样给 图灵的 理论增 色的。 只要拿 它作为 计算机 模型， 
那种 读字符 输入并 且只有 两种可 能的 写语句 printf  ( "yes\n" ) 和 printf  ( "no\n" ) 的 C 语 
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言 程序， 就足 够了。 此外， 在 产生任 一种输 出后， 该程 序必须 终止， 这样 它才不 会随后 产生矛 
盾的 输出。 要 理解， 这 类程序 在接受 某些输 入后可 能既不 能回应 “yes” 也不 会回应 “no”， 而 
是在循 环中一 直循环 下去。 

我 们将要 证明， 不存 在像图 14-10a 所示的 “判 定器” 程序乃 这样的 程序。 假设 Z) 接 受上述 
特 殊类型 的程序 尸作为 输入， 在给定 尸本身 作为尸 的输 入时， 若尸说 “yes”， 则乃说 “yes”。 而在 
给定尸 作为/ ^的输 入时， 若尸说 “no”  或者尸 没法进 行任何 判定， 则乃说 “no”。 正 如我们 将要看 
到的， 正是这 一要求 使得乃 可以算 出什么 时候尸 从不会 作出使 得乃无 法写的 判定。 

不过， 假设这 样的乃 存在， 要编 写如图 14-10b 所示 “求 补器” 程序 C 就是个 简单问 题了。 C 
是根据 假设的 Z)， 通 过把所 有打印 “no”  的 语句变 成打印 “yes” 的 语句， 并 把打印 “yes” 的 
语句变 成打印 “no”  的 语句而 形成的 程序。 

现 在可以 询问， 如图 14-lOc 所示， 在把 C 本身 提供给 C 作为输 入时， 会发生 什么？ 如 果匚说 
“yes”， 那么 按照图 14-10b 表 示的， C 会断言 “C 针 对输入 C 不会说 ‘yes’”。 如果 C 说 “no”， 那 
么 C 会断言 “C 针 对输入 C 会说 ‘yes’”。 现在就 有了类 似罗素 悖论的 矛盾， 其中 C 没法真 实地说 
出  “yes”  和  “no”。 

结论 就是， 这样 的判定 器程序 乃其实 是不存 在的。 也就 是说， Z) 可以 解决的 问题， 也就是 
在给 定其自 身作为 输入时 类型限 制为说 “yes” 或 没法说 “yes” （通 过说 “no”  或 什么都 不说） 
的 C 语言 程序， 是不 能由计 算机解 决的。 它是 个不可 判定的 问题。 

自 图灵最 初的结 果起， 现 已发现 种类繁 多的不 可判定 问题。 例如， 某 给定输 入是否 会让给 
定的 C 语言 程序进 入无限 循环， 或两个 C 语言 程序在 接受相 同输入 时是否 会产生 相同的 输出， 
都是 不可判 定的。 


/ 如果 尸对 输 人尸说 “yes” 就是 “yes” 

P—D 

\ 如果 P 没对 输人 P 说 “yes” 就是 “no” 

(a) 假设的 判定器 D 


/ 如果 尸没 对输入 户说 “yes” 就是 “yes” 

P  4  C 

\ 如果 尸对输 人尸说 “yes” 就是 “no” 

(b) 求补器 C 


C  —  C 


(c) 在以 其自身 作为输 入时， C 会做些 什么？ 
图 14-10 图灵 构造的 一部分 
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因此， 本书并 不是要 以负面 的声音 收尾， 而是要 用不可 判定性 这一理 论提醒 我们， 和数学 
一样， 计算机 科学也 注定是 挑战最 优秀人 才的。 深入 研究这 一学科 的学生 还将了 解到避 免这种 
不 可判定 （而 且难以 驾驭） 的 情况所 需要的 科学与 艺术。 这 些学生 之后可 能会加 人到推 进计算 
机发 展的科 学家和 工程师 的队伍 之中。 

14.10.6  习题 

(1)  设 ， E2=q  , 而且 五3  =  W  。 描述使 {氏 ，五 2} 为真 的模型 （命 题变暈 P、 ^ 和 r 的真 值赋 值）。 

描述尽 的 模型。 乓, 五2卜 尽是否 为真？ 为 什么？ 

(2)  ** 考虑以 下谓词 逻辑表 达式。 

a)  E1=(\/X)p(X,X) 

b)  E2=(\/X)(\/Y)(p(X,Y)^p(Y,X)) 

c)  Ei=('iX){\/Y)(\/Z){{p(X,Y)mD  p(Y,Z))^  p(X,Z)) 

d)  EA={\/X){yY){p(X,Y)ORp(Y,X)) 

e)  E,=(yX){3Y)p(X,Y) 

这 5 个表 达式中 哪个表 达式是 由其他 4 个表 达式蕴 涵的？ 在各情 况中， 要么 给出与 所有可 能的解 
释有 关的论 证以证 明这种 蕴涵， 要 么给岀 可以作 为其中 4 个表 达式的 模型但 不是第 5 个表 达式的 
模型的 某种特 定解释 。提 示： 首先可 以想象 谓词; ? 表 示有向 图的弧 ，并 把各表 达式看 作图的 属性。 
7.10 节中的 材料应 该能提 供一些 提示， 包括如 何找到 定义域 是某图 节点而 且谓词 是该图 弧的合 
适 模型， 或 者是如 何证明 为何一 定存在 蕴涵。 不过请 注意， 只强调 该解释 是图， 并不足 以证明 
蕴涵。 

(3)  *设& 和&是 两个谓 词逻辑 （或者 是命题 逻辑， 这都没 关系） 表达式 集合， 并设它 们对应 的模型 
集合 分别是 

(a)  证 明对应 表达式 集合乂  u  & 的模型 集合是 nM2 。 

(b)  对应表 达式集 合 &  的模型 集合是 否总是 MxyjM^. 

(4)* 证明： 如果 (尽 AND£2AND … AND£„)-> 五是重 言式， 就有五 ^  E2 ，…， E>E 。 

14.11  小结 

大家 应该从 本章中 了解到 了如下 要点。 

□ 谓词逻 辑用原 子公式 （ 即带 参数的 谓词） 作为 原词操 作数， 并使用 命题逻 辑运算 符以及 
两 个量词 “对所 有”和 “存 在”。 

□ 谓词 逻辑表 达式中 的变量 受量词 约束的 方式， 类似 程序中 的变量 受声明 约束的 方式。 

□ 与命 题逻辑 中的真 值赋值 不同， 在 谓词逻 辑中我 们有一 种名为 “ 解释” 的更 复杂的 结构。 
解释 是由定 义域、 定义域 上对应 谓词的 关系， 以及 从定义 域对应 任何自 由变量 的值组 
成的。 

□ 使 得表达 式集为 真的解 释就是 该表达 式集的 “模 型”。 

□ 谓 词演算 的重言 式是那 些对每 种解释 而言都 能得岀 TRUE 的表 达式。 尽管很 多重言 式是通 
过 X 才命 题逻 辑重言 式进行 替换得 到的， 但也 存在一 些涉及 量词的 重要重 言式。 

□每 个谓 词逻辑 表达式 都可以 表示为 “前 束式” 表 达式， 它是 由无量 词表达 式最后 应用量 
词运 算符构 成的。 
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□谓 词逻辑 中的证 明可以 通过与 构建命 题逻辑 中的证 明类似 的方式 构建。 

□ 在 重言式 中用常 量替换 变量可 得到另 一个重 言式， 这 一推理 规则在 证明中 是很实 用的， 
特 别是在 处理大 量的事 实和规 则时。 

□如 果表 达式集 {尽 ，…, 的任 一模型 同时也 是表达 式五的 模型， 则该表 达式集 “蕴 涵”表 
达式 E。 如果巧 ，…， 忍蕴涵 E， 在 给定巧 ，…， 尽作为 前提时 就把应 见为 “ 真”。 

□ 哥 德尔的 定义说 明了， 如果我 们用描 述数论 （ 即非负 整数的 算术） 的表达 式作为 前提， 
那么对 任何证 明系统 而言， 都存在 一些由 前提蕴 涵但不 能通过 前提证 明的表 达式。 
□图灵 的定理 描述了  “图 灵机” 这种 正式的 计算机 模型， 并表 示存在 不能由 计算机 解决的 
问题。 
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看完了 

如果您 对本书 内容有 疑问， 可发 邮件至 contact@turingbook.com, 会 有编辑 或作译 者协助 
答疑。 也可访 问图灵 社区， 参 与本书 讨论。 

如果是 有关电 子书的 建议或 问题， 请 联系专 用客服 邮箱： ebook@turingbook.com。 
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